首页 > 快讯 > 助力性能飞跃241%:蕴含312条轨迹的电脑智能体由上交大与SII联手开源革新领域

助力性能飞跃241%:蕴含312条轨迹的电脑智能体由上交大与SII联手开源革新领域

发布时间:2025-05-26 09:45:12 | 责任编辑:吴昊 | 浏览量:17 次

在电脑智能体(Computer Use Agent)领域,最近有一个激动人心的进展。上海交通大学与 SII 的研究团队,借助仅312条人类标注的操作轨迹,成功训练出了名为 PC Agent-E 的新一代开源电脑智能体,其性能提升高达241%,超越了著名的 Claude3.7Sonnet,成为 Windows 系统上的新一代最优模型。
自从 Anthropic 推出 Claude Computer Use 以来,电脑智能体的发展一直备受关注。OpenAI 也相继发布了 Operator,通过强化学习技术提升电脑智能体的能力。然而,业界普遍认为,要想达到这样的水平,需要大量的轨迹数据和复杂的强化学习算法。面对这种观点,上海交通大学和 SII 的团队用实际成果反驳了这一说法:只需少量的高质量数据,便能激发智能体的潜力。
这项研究的关键在于如何有效利用人类的操作轨迹。研究团队仅用了两名研究者一天的时间,通过开发的工具 PC Tracker,收集到了312条真实的操作轨迹。这些轨迹包含任务描述、屏幕截图以及详细的键盘和鼠标操作记录,确保了数据的准确性。在这之后,研究团队还为这些轨迹进行了 “思维链补全”,即为每个动作提供了背后的思考过程,使得数据更加完整。
为了进一步提升模型的性能,团队引入了 “轨迹增强” 技术。通过使用 Claude3.7Sonnet,研究人员为每一步的操作合成了多个合理的动作决策,这样不仅增加了轨迹数据的多样性,也显著提高了训练的效率。最终,PC Agent-E 在 WindowsAgentArena-V2的测试中表现出色,超越了 Claude3.7Sonnet 的 “extended thinking” 模式。
这项研究的成果显示,使用少量高质量的数据即可实现强大的智能体训练,不再需要海量的标注数据。这为未来更智能的数字代理的发展指明了方向,团队也认为,通过提高轨迹数据的质量,可以有效降低数据需求,推动智能体的自主性提升。
论文地址:https://arxiv.org/abs/2505.13909
代码地址:https://github.com/GAIR-NLP/PC-Agent-E
模型地址:https://huggingface.co/henryhe0123/PC-Agent-E
数据地址:https://huggingface.co/datasets/henryhe0123/PC-Agent-E

助力性能飞跃241%:蕴含312条轨迹的电脑智能体由上交大与SII联手开源革新领域

上海交通大学与SII的研究团队在电脑智能体领域取得了重大突破,他们仅用312条人类标注的操作轨迹,成功训练出名为PC Agent-E的新一代开源电脑智能体,其性能提升高达241%,超越了著名的Claude3.7Sonnet,成为Windows系统上的新一代最优模型。

研究背景与意义

自Anthropic推出Claude Computer Use以来,电脑智能体的发展备受关注。业界普遍认为,要实现电脑智能体的突破,需要海量的轨迹数据和复杂的强化学习算法。然而,上海交通大学与SII的研究团队用实际成果反驳了这一观点,证明只需少量高质量数据,就能显著提升智能体的性能。

研究方法

  1. 数据收集:研究团队通过开发的工具PC Tracker,仅用两名研究者一天的时间,收集了312条真实的人类操作轨迹。这些轨迹包含任务描述、屏幕截图以及详细的键盘和鼠标操作记录。

  2. 思维链补全:为每个动作步骤添加背后的思考逻辑,使数据更加完整。

  3. 轨迹增强:利用Claude3.7Sonnet为每一步操作合成多个合理的动作决策,增加轨迹数据的多样性,显著提高训练效率。

  4. 模型训练:基于开源模型Qwen2.5-VL-72B进行训练,得到PC Agent-E智能体。

实验结果与影响

  • 性能提升:PC Agent-E在WindowsAgentArena-V2的测试中,性能提升高达241%,超越了Claude3.7Sonnet的“extended thinking”模式。

  • 跨平台泛化性能:PC Agent-E在OSWorld上也表现出色,展示了良好的跨平台能力。

  • 创新贡献:该研究证明少量高质量的轨迹数据足以激发智能体的强大能力,为未来智能体的发展提供了新的思路。

该研究不仅推动了电脑智能体技术的进步,也为人工智能领域的研究提供了新的方向。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复