OS-Themis：GUI Agent 奖励评估新框架，RL 训练效果提升 10.3%

2026年3月21日 530点热度 0人点赞 0条评论

导语：arXiv 最新论文提出 OS-Themis，一个可扩展的多 Agent 评论框架，用于 GUI 任务奖励评估。该框架将轨迹分解为可验证的里程碑并引入审核机制，在 AndroidWorld 上使在线 RL 训练效果提升 10.3%，为 GUI Agent 强化学习训练提供高质量奖励信号。

核心内容

强化学习（RL）有潜力提升 GUI Agent 在随机环境中的鲁棒性，但训练效果高度依赖奖励函数的质量。现有奖励方法难以同时实现可扩展性和准确性。研究团队提出的OS-Themis 框架采用多 Agent 评论架构，通过分解轨迹和严格审核来解决这一挑战。

核心设计包含两个关键创新。首先，OS-Themis 将完整轨迹分解为可验证的里程碑，隔离关键证据以支持决策。与单一评判者不同，这种分解方法能够精确定位任务执行中的关键节点，避免全局评估带来的信息丢失。其次，框架引入审核机制，在做出最终裁决前严格审计证据链，确保奖励信号的准确性和可靠性。

评估基准方面，研究团队构建了 OmniGUIRewardBench（OGRBench），一个跨平台的 GUI 结果奖励基准。该基准涵盖 AndroidWorld、OSWorld、WindowsAgentArena、macOSArena 和 WebArena-Lite-v2 五个代表性平台，包含 1,409 条轨迹（700 条正样本、709 条负样本），由 Qwen3-VL 系列、UITARS、ScaleCUA 和 Claude-Sonnet-4.5 等多个 GUI Agent 生成。

性能表现令人瞩目：在所有测试的基础模型上，OS-Themis consistently 优于基线方法。相比 DigiRL（LLM-as-a-Judge 范式代表），OS-Themis 在准确率上提升 18.8%，精确率提升 29.6%，召回率提升 16.9%，F1 分数提升 26.2%。相比 ZeroGUI（直接评估范式），准确率提升 7.7%，精确率提升 5.1%，召回率提升 13.0%，F1 分数提升 13.4%。

在线 RL 训练实验进一步验证了框架的实用价值。在 AndroidWorld 基准上，使用 OS-Themis 作为奖励来源训练 Qwen3-VL-4B 模型，任务完成率提升 6%；训练 Qwen3-VL-8B 模型，提升 7.1%。规模化研究显示，当训练任务扩展到 1,024 个时，Qwen3-VL-4B 在 AndroidWorld 上的准确率达到 55.6%，相比基线提升10.3%。

自进化能力是框架的另一大亮点。研究团队将 Qwen3-VL 和 OS-Themis 集成到容器化 Android 环境中，建立自主自进化范式：Agent 自主探索环境生成交互数据，OS-Themis 精确过滤高质量轨迹，训练后的 Agent 又能生成更高质量数据，形成良性循环。这一设计解决了 GUI Agent 发展中高质量轨迹数据稀缺的核心瓶颈。

技术/行业洞察

OS-Themis 的设计反映了 GUI Agent 强化学习领域的一个关键趋势：从单一评判向多 Agent 协作评估演进。传统 LLM-as-a-Judge 方法依赖单一模型进行全局评估，容易受到模型偏见和上下文限制的影响。OS-Themis 通过多 Agent 分工（Selector、Reviewer、Judge、Verifier）和证据链审核，实现了更可靠、更可解释的奖励评估。

这一设计的深层洞察在于：奖励质量是 RL 训练效果的上限。无论 RL 算法多么先进、模型规模多么庞大，如果奖励信号本身存在噪声或偏差，训练效果都会受到根本性限制。OS-Themis 通过里程碑分解和审核机制，从源头提升奖励质量，为后续 RL 训练奠定坚实基础。

轨迹分解为可验证里程碑的设计体现了过程监督（Process Supervision）的理念。与仅评估最终结果的结果监督不同，过程监督关注执行过程中的每一步是否正确。这种方法能够更精确地定位问题所在，提供更细粒度的学习信号。研究显示，扩展 Judge/Verifier 组件对性能提升最为关键，而扩展 Reviewer 主要提升精确率，这为框架优化提供了明确方向。

跨平台基准 OGRBench 的构建解决了 GUI Agent 评估的一个核心痛点：平台异构性导致的评估碎片化。Android、iOS、Windows、macOS、Web 等不同平台的 UI 交互模式、元素类型、操作方式差异巨大，单一平台训练的 Agent 难以泛化到其他平台。OGRBench 提供统一的评估标准，使得跨平台泛化能力成为可量化、可比较的指标。

自进化范式的设计体现了数据飞轮的战略思考。GUI Agent 发展的核心瓶颈不是算法或模型，而是高质量训练数据的稀缺。通过自主探索 + 精确过滤的闭环，OS-Themis 使得 Agent 能够在真实环境中持续积累高质量经验，摆脱对人工标注数据的依赖。这一设计对于推动 GUI Agent 从研究走向大规模应用具有重要意义。

从行业应用角度看，OS-Themis 对移动应用测试、RPA 自动化、智能助手、无障碍辅助等领域都有直接价值。这些场景都需要 Agent 在复杂 UI 环境中可靠执行任务，而强化学习是提升 Agent 适应能力的关键技术。OS-Themis 提供的奖励评估框架，使得 RL 训练更加高效、稳定，加速了 GUI Agent 的落地进程。

然而，该框架也面临挑战。首先，多 Agent 架构增加了计算开销和推理延迟，在实时性要求高的场景需要权衡。其次，里程碑分解的质量依赖于对任务结构的理解，对于模糊或开放性任务可能难以有效分解。此外，自进化范式需要大量环境交互，可能产生高昂的 API 调用成本或设备资源消耗。