首页 > 快讯 > CoAct-1由南加州大学与Salesforce合作发布：通过代码与GUI结合，创新性地推进AI代理自动化

CoAct-1由南加州大学与Salesforce合作发布：通过代码与GUI结合，创新性地推进AI代理自动化

发布时间：2025-08-13 12:41:00 | 责任编辑：吴昊 | 浏览量：252 次

Salesforce与南加州大学的研究人员共同开发了一项名为 CoAct-1 的突破性技术，旨在通过结合编码和图形用户界面（GUI）操作的优势，显著提升AI代理在计算机上执行复杂任务的能力。这一混合方法旨在克服传统GUI代理的脆弱性，为更强大、可扩展的自动化铺平道路。
传统AI代理的痛点:长任务与误点击
现有的计算机AI代理通常依赖视觉语言模型（VLM）来感知屏幕并模拟鼠标键盘操作。虽然这类“点击式”代理能执行各种任务，但在面对办公生产力套件等具有密集菜单和复杂工作流程的应用时，它们往往表现不佳。研究人员指出，在这些场景中，单一的误点击或对UI元素的误解，都可能导致整个任务失败。
为了应对这一挑战，研究人员曾尝试利用高级规划器来增强GUI代理，但这种方法依然无法解决那些通过几行代码就能更直接、更可靠地完成的操作。
CoAct-1:一个多智能体协作的混合系统
为解决这些限制，CoAct-1系统应运而生。其核心理念是“将GUI操作的直观优势与通过代码直接进行系统交互的精确性、可靠性和效率相结合”。该系统由一个由三个专门代理组成的团队协作完成任务:
编排器（Orchestrator）:作为中央规划器，它负责将用户的总体目标分解为子任务，并分配给最合适的代理。
程序员（Programmer）:负责编写和执行Python或Bash脚本，处理文件管理或数据处理等后端操作。
GUI 操作员（GUI Operator）:基于VLM，专门处理需要点击按钮或导航界面的前端任务。
这种动态委托机制使得CoAct-1能够策略性地绕过低效的GUI操作，转而采用更稳健、更高效的代码执行，同时保留视觉交互的必要性。整个工作流程是迭代的，每个代理完成子任务后都会向编排器汇报，由其决定下一步行动。
性能飞跃:更快、更高效
研究人员在 OSWorld 基准测试上对CoAct-1进行了测试，该基准包含了369个跨浏览器、IDE和办公应用程序的实际任务。结果显示，CoAct-1取得了 60.76%的成功率，树立了新的最高水平。
尤其是在操作系统级任务和多应用程序工作流中，CoAct-1的性能提升最为显著。更重要的是，该系统的效率也大幅提高，平均只需 10.15步即可完成任务，远少于其他领先的纯GUI代理所需的15.22步。研究人员指出，更少的步骤不仅能加快任务完成速度，还能最大限度地减少出错的机会，从而实现更高效、更可靠的自动化。
从实验室走向企业:潜在的应用与挑战
这项技术拥有巨大的企业应用潜力。Salesforce应用AI研究总监 Ran Xu 指出，客户支持、销售勘探、自动化簿记和营销活动管理等领域都是完美的用例。在这些场景中，企业需要处理有API和无API的多种工具，而CoAct-1能够灵活利用代码和屏幕，提供全面的自动化解决方案。
然而，将CoAct-1从实验室推向企业环境也面临挑战，包括应对遗留软件、确保安全性和人工监督的必要性。徐强调，需要通过在沙盒环境中训练来提高代理的适应性，并建立强大的访问控制和安全护栏，以防止恶意代码执行。最终，在可预见的未来，“人在环”（human-in-the-loop）的模式将是确保代理安全、可靠运行的关键。

Salesforce 与南加州大学（USC）携手推出的 CoAct-1 是一项突破性的 AI 代理技术，通过代码执行与图形用户界面（GUI）操作的混合方法，显著提升了 AI 代理在计算机上执行复杂任务的效率和可靠性。

1. 传统 AI 代理的瓶颈

传统 AI 代理主要依赖视觉语言模型（VLM）模拟鼠标和键盘的 GUI 操作，直观但脆弱：

长任务易失败：复杂、多步骤任务中，一次误点击或对 UI 元素的误解就可能导致整个流程失败。
效率低下：冗长的 GUI 操作步骤降低了执行效率。

2. CoAct-1 的混合架构

CoAct-1 采用三代理协作架构，动态分配任务，融合代码与 GUI 的优势：

编排器（Orchestrator）：负责将用户目标分解为子任务，并分配给最合适的代理。
程序员（Programmer）：编写并执行 Python 或 Bash 脚本，高效处理文件管理、数据操作等后端任务。
GUI 操作员（GUI Operator）：执行需要视觉交互的前端任务，如点击按钮、导航菜单。

这种**“因地制宜”的动态任务分配**机制，使 CoAct-1 能够绕过低效的 GUI 操作，转而采用更稳健的代码执行，同时保留必要的视觉交互。

3. 性能突破：更快、更可靠

在 OSWorld 基准测试（包含 369 个真实任务）中，CoAct-1 实现了：

60.76% 的成功率，成为首个突破 60% 阈值的 CUA（Computer-Using Agent）系统。
平均仅需 10.15 步完成任务，相比纯 GUI 代理（如 GTA-1 的 15.22 步），效率提升约 33%，显著减少错误累积。

特别在多应用协同任务和操作系统级任务中，CoAct-1 表现尤为突出：

LibreOffice Calc 电子表格任务：成功率达 70.21%，远超 GTA-1 的 59.57%。
多应用协同任务：成功率从 GTA-1 的 38.34% 跃升至 CoAct-1 的 47.88%。

4. 企业应用与未来展望

CoAct-1 在客户支持、销售勘探、自动化簿记和营销活动管理等企业场景中展现出巨大潜力，能够灵活应对既有 API 又无 API 的混合工具环境。

然而，从实验室走向企业应用仍面临挑战：

遗留系统适配：需处理老旧软件接口，适配成本较高。
安全性与人工监督：需建立沙盒训练环境和严格的访问控制，防止恶意代码执行，确保“人在环”（human-in-the-loop）的安全运行模式。

5. 总结

CoAct-1 通过将代码执行提升为与 GUI 操作并列的核心行动，突破了传统 AI 代理在长任务和复杂环境中的瓶颈，为通用计算机自动化提供了更高效、更可靠、更可扩展的技术路径。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：重大更新！轻松切换GPT-5模式，4o再次亮相，享受更贴心的体验

下一篇：全新亮相的Qwen Code由阿里通义千问推出，每天提供2000次免费访问服务！

CoAct-1由南加州大学与Salesforce合作发布：通过代码与GUI结合，创新性地推进AI代理自动化

1. 传统 AI 代理的瓶颈

2. CoAct-1 的混合架构

3. 性能突破：更快、更可靠

4. 企业应用与未来展望

5. 总结

最新Ai信息

最新Ai工具

热门AI推荐