Coding One

  • java
  • php
  • python
  • 前端
  • 大数据
  • 操作系统
  • 树莓派
  • 其他
Coding One
如果每天只要敲敲代码,那这样一辈子也挺好。
  1. 首页
  2. 其他
  3. 正文

OS-Themis:GUI 智能体的「裁判系统」,强化学习训练效率提升 10.3%

2026年3月20日 18点热度 0人点赞 0条评论

导语:GUI 智能体如何在复杂操作环境中可靠学习?arXiv 最新论文提出 OS-Themis,一个可扩展的多智能体评论框架,通过分解轨迹、严格审核证据链,在 AndroidWorld 基准上实现 10.3% 的性能提升,同时发布 OmniGUIRewardBench 评估基准。

核心内容

强化学习(RL)被视为提升 GUI 智能体在随机环境中鲁棒性的关键技术,但训练效果高度依赖奖励函数的质量。现有的奖励方法难以同时实现可扩展性和高性能——单一评判器容易出错,而复杂规则又难以泛化。

OS-Themis 提出了一种创新的多智能体评论框架。其核心设计包含两大机制:轨迹分解和审核机制。系统首先将完整的操作轨迹分解为可验证的里程碑(milestones),隔离关键决策证据;然后通过多智能体审核机制严格审查证据链,最终做出准确评判。这种「分而治之」的策略显著提高了奖励信号的可靠性。

为便于评估,研究团队同步发布了 OmniGUIRewardBench(OGRBench),这是一个跨平台的 GUI 结果奖励基准。实验显示,所有被测模型在 OS-Themis 支持下均达到最佳性能。在 AndroidWorld 上的大量实验表明:OS-Themis 用于在线 RL 训练时带来 10.3% 的性能提升;用于自训练循环中的轨迹验证和过滤时,也有 6.9% 的增益。

技术/行业洞察

OS-Themis 的成功揭示了 GUI 智能体训练的一个关键洞察:奖励质量比奖励数量更重要。传统方法试图用单一模型评判整个轨迹,但 GUI 操作的多步骤特性使得这种「端到端」评判容易遗漏关键细节。

OS-Themis 的设计哲学借鉴了人类代码审查(Code Review)的思路:

  • 里程碑分解:类似将大功能拆分为小的 PR,每个里程碑独立验证
  • 多智能体审核:类似多人 Code Review,减少单点判断错误
  • 证据链审计:确保每一步决策都有据可查,避免「黑箱」评判

这一架构对 GUI 智能体领域有深远影响。随着操作系统、移动应用、Web 界面的自动化需求增长,可靠的训练信号成为瓶颈。OS-Themis 提供了一种可扩展的解决方案,使得 RL 训练不再受限于手工设计的奖励函数。

值得注意的是,该框架的「评论器」(Critic)设计与当前热门的「推理时扩展」(Test-time Compute)趋势一致——通过增加评判阶段的计算投入,换取训练阶段更高的样本效率和最终更好的性能。

应用场景

对 GUI 自动化开发者:OS-Themis 可直接集成到现有 RL 训练流程中,无需修改智能体架构。适用于移动应用测试、Web 自动化、桌面软件操作等场景,显著提升智能体在未见过的界面中的泛化能力。

对研究机构:OmniGUIRewardBench 提供了标准化的评估工具,支持跨平台(Android、iOS、Web、Desktop)比较不同 GUI 智能体的奖励函数质量,加速领域研究进展。

对企业自动化团队:OS-Themis 的轨迹验证功能可用于生产环境监控——当智能体执行关键操作(如支付、数据修改)时,系统可自动审核操作轨迹,确保符合预期,降低自动化风险。

延伸阅读

  • 论文链接:arXiv:2603.19191
  • PDF 下载:https://arxiv.org/pdf/2603.19191
  • 相关基准:OmniGUIRewardBench (OGRBench)
  • 实验环境:AndroidWorld

作者团队:Zehao Li, Zhenyu Wu, Yibo Zhao 等(来自上海交通大学、清华大学等机构)

发表时间:2026 年 3 月 19 日

参考资料:GUI Agent、Reinforcement Learning from Human Feedback (RLHF)、多智能体系统

标签: 暂无
最后更新:2026年3月20日

JVS, Claw

这个人很懒,什么都没留下

点赞
< 上一篇

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

COPYRIGHT © 2022 Coding One. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

闽ICP备17024682号