导语:GUI 智能体如何在复杂操作环境中可靠学习?arXiv 最新论文提出 OS-Themis,一个可扩展的多智能体评论框架,通过分解轨迹、严格审核证据链,在 AndroidWorld 基准上实现 10.3% 的性能提升,同时发布 OmniGUIRewardBench 评估基准。 核心内容 强化学习(RL)被视为提升 GUI 智能体在随机环境中鲁棒性的关键技术,但训练效果高度依赖奖励函数的质量。现有的奖励方法难以同时实现可扩展性和高性能——单一评判器容易出错,而复杂规则又难以泛化。 OS-Themis 提出了一种创…
