首页 > 快讯 > 全新Agent操作系统UFO²由微软推出,深度融合Windows与智能化自动技术

全新Agent操作系统UFO²由微软推出,深度融合Windows与智能化自动技术

发布时间:2025-04-27 09:07:50 | 责任编辑:吴昊 | 浏览量:5 次

近日,微软宣布重磅升级其开源项目 AgentUFO,推出了全新的 UFO² 版本,该版本新增了操作系统功能,并与 Windows 系统实现了深度集成。此举不仅增强了自动化任务的执行效率,还使得用户能够更便捷地进行复杂操作。
UFO² 的一个显著特点是其能够直接调用 Windows 的原生 API 和 COM 接口。这种方式相比传统的机器人流程自动化(RPA),能够在执行复杂业务时更加高效且精准。例如,在 Excel 中将表格数据转换为图表,传统 RPA 需要模拟多次点击鼠标,而 UFO² 则可以通过一次 API 调用轻松完成,避免了视觉定位和鼠标模拟的繁琐。
通过测试数据显示,UFO² 在自动化任务的成功率方面,显著高于 OpenAI 的 Operator。在不同的测试场景中,UFO² 的成功率分别达到了30.5% 和32.7%,而 Operator 的成功率仅为20.8% 和14.3%。此外,UFO² 在处理复杂任务和跨应用操作的表现上也明显优于 Operator,其在非标准界面的适应性更强。
UFO² 的核心控制组件 HostAgent 负责解析用户指令、管理应用程序生命周期和协调 AppAgents 的执行。当用户通过自然语言发出自动化指令时,HostAgent 会将任务分解为一系列子任务,并将其分配给相应的 AppAgents 执行。
每个 AppAgent 专注于特定的 Windows 应用程序,能够以更高的效率执行任务。UFO² 还引入了混合控制检测机制,结合视觉输入与应用程序的元数据,提升了系统对 GUI 元素的感知能力。这一创新使得 AppAgent 能够在标准和非标准环境中都能稳定工作。
另一个值得注意的创新是 UFO² 的画中画模式。这一功能实现了自动化任务与用户主桌面的隔离,用户可以在主桌面上正常操作,而自动化任务则在独立的虚拟桌面中运行。这种设计提升了用户体验,降低了系统干扰和潜在安全风险。
UFO² 的这些新功能展现了微软在自动化领域的最新技术进步,为用户提供了更加高效、灵活的工作环境。
开源地址:https://github.com/microsoft/UFO?tab=readme-ov-file
划重点:
1. 🚀 UFO² 与 Windows 系统深度集成,能直接调用原生 API,提升自动化效率。
2. 📊 UFO² 的自动化任务成功率显著高于 OpenAI 的 Operator,表现出色。
3. 🖥️ 新增的画中画模式实现自动化任务与用户操作的隔离,提升用户体验。

全新Agent操作系统UFO²由微软推出,深度融合Windows与智能化自动技术

微软于2025年4月发布了全新Agent操作系统UFO²,该系统深度整合了Windows与智能自动化,具有以下特点:

深度集成Windows系统

  • 直接调用原生API和COM接口:UFO²能够直接调用Windows的原生API和COM接口,相比传统的机器人流程自动化(RPA),在执行复杂业务时更加高效且精准。例如在Excel中将表格数据转换为图表,传统RPA需模拟多次点击鼠标,而UFO²通过一次API调用即可轻松完成,避免了视觉定位和鼠标模拟的繁琐。

  • 支持跨应用工作流:UFO²支持跨应用工作流,例如可以从Excel中提取数据并填充到Web表单中。

多Agent架构

  • 集中式HostAgent:UFO²采用多Agent架构,包括一个负责任务拆解与协调的集中式HostAgent,以及一组针对具体应用场景设计的AppAgent。HostAgent负责解析用户指令、管理应用程序生命周期和协调AppAgents的执行。

  • 应用特定的AppAgent:每个AppAgent专注于特定的Windows应用程序,能够以更高的效率执行任务。

自然语言交互

UFO²能够无缝理解自然语言用户请求,并将其转化为具体的操作指令,用户只需发出自然语言指令,系统即可自动转化为跨多个GUI应用程序的协调工作流。

高效执行与优化

  • 混合控制检测:UFO²采用混合控制检测技术,结合UIA和基于视觉的解析,能够可靠地识别标准和自定义GUI元素,弥补了UIA在非标准界面中的不足。

  • 推测性多动作执行:UFO²通过推测性多动作执行技术,减少LLM调用的频率。它在单次推理中预测多个可能的动作,并在执行前验证这些动作的可行性,从而提高效率。

  • 任务成功率高:测试数据显示,UFO²在自动化任务的成功率方面,显著高于OpenAI的Operator。在不同的测试场景中,UFO²的成功率分别达到了30.5%和32.7%,而Operator的成功率仅为20.8%和14.3%。

非干扰式用户体验

UFO²引入了画中画界面,实现了隔离虚拟桌面内的自动化。Agent和用户能够同时操作而不受干扰,大大提高了系统的可用性和用户的操作体验。

安全保障机制

UFO²能够检测潜在的危险操作,在执行前提示用户确认,确保用户数据和系统安全。

开源与未来发展

  • 开源地址:UFO²的开源地址为https://github.com/microsoft/UFO?tab=readme-ov-file,开发者可以在此基础上进行进一步的开发和优化。

  • 未来展望:未来,UFO²将通过在广泛、多样的GUI交互数据集上进行微调来增强基础视觉语言模型,提高智能体的能力和在不同应用中的通用性。同时,与操作系统级API、本地API以及全面、结构化的文档资源进行更紧密的集成,也能够加深对上下文的理解并提高执行的可靠性。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复