首页 > 快讯 > Magentic-UI: 微软推出的新网页智能助理,旨在应对复杂网页任务

Magentic-UI: 微软推出的新网页智能助理,旨在应对复杂网页任务

发布时间:2025-05-22 14:25:36 | 责任编辑:张毅 | 浏览量:6 次

微软研究院正式宣布开源 Magentic-UI,这是一款以人为中心的 AI 智能体研究原型,旨在通过网页浏览器实时协助用户完成复杂的网络任务。
Magentic-UI 基于微软此前发布的 Magentic-One 多智能体系统和 AutoGen 框架打造,强调透明性、可控性和人机协作,为用户和研究人员提供了一个探索 AI 智能体交互和监督机制的强大平台。本文将从 小编 的视角,深入剖析 Magentic-UI 的核心功能、技术亮点及其潜在应用价值。
与追求完全自主的 AI 工具不同,Magentic-UI 将用户置于任务执行的核心,强调透明性和可控性,确保用户在自动化过程中始终保持主导权。Magentic-UI 支持用户通过计划编辑器或文本反馈直接修改 AI 的执行计划,在任务开始前即可明确每一步操作。这种协作规划(co-planning)机制让用户能够清晰了解 AI 的行动意图,避免了传统 AI 工具“黑箱”操作的不确定性。
此外,Magentic-UI 引入了行为防护(action guards)功能,敏感操作需经用户明确批准,用户还可自定义审批频率,确保安全性和灵活性。系统采用 Docker 沙箱技术隔离运行环境,有效防止对主机环境的意外影响,并通过网站白名单机制限制 AI 的访问范围,进一步提升安全性。据微软官方披露,Magentic-UI 已通过红队评估,成功抵御了跨站提示注入和钓鱼攻击等多重威胁。
多智能体协同,高效处理复杂任务
Magentic-UI 的核心在于其多智能体架构,基于2024年发布的 Magentic-One 系统,并由 AutoGen 框架驱动。系统由四个专业智能体组成,各自承担特定任务:
Orchestrator:作为主导智能体,负责任务规划、分解和协调,动态调整执行策略。
WebSurfer:专注于网页导航和操作,能够搜索信息、填写表单、与在线元素交互。
Coder:支持代码生成与执行,适合需要编程支持的任务,如数据分析或脚本自动化。
FileSurfer:处理文件管理,浏览本地目录、分析文件内容,支持多类型文档操作。
这些智能体通过内外双循环机制协同工作:外部循环管理任务整体计划,内部循环跟踪子任务进度,确保高效完成复杂工作流。例如,Magentic-UI 可用于自动化网页表单填写、深度网站导航(如筛选航班信息)或结合网页数据生成分析图表,显著提升生产效率。
Magentic-UI 以 MIT 许可证开源,代码已上架 GitHub(https://github.com/microsoft/Magentic-UI),并集成于 Azure AI Foundry Labs,为开发者、企业和研究人员提供了一个实验和创新的平台。用户可以通过文本输入和图像附件与 Magentic-UI 交互,系统生成自然语言计划,并支持实时编辑和干预。此外,Magentic-UI 具备计划学习(plan learning)功能,能从历史任务中学习并保存执行计划,优化未来任务的自动化效率。
微软表示,Magentic-UI 的设计遵循以人为中心的方法论,通过试点用户反馈不断优化,确保用户体验直观高效。这种开源模式不仅推动了人机协作技术的研究,还为开发者提供了模块化、可扩展的框架,助力构建更智能的 AI 应用。

Magentic-UI: 微软推出的新网页智能助理,旨在应对复杂网页任务

微软在2025年5月19日的Build 2025开发者大会上正式发布了Magentic-UI,这是一款以人为中心的Web智能体,旨在通过网页浏览器实时协助用户完成复杂的网络任务。Magentic-UI的核心功能和特点如下:

功能特点

  • 协同规划(Co-planning):用户可以通过计划编辑器查看和修改AI制定的任务步骤,确保任务执行符合用户的期望。

  • 协同任务(Co-tasking):用户可以随时暂停任务执行、提供反馈,甚至直接接管浏览器操作。

  • 行为防护(Action Guards):在执行可能不可逆的操作(如下单购买、添加到购物车)之前,AI会请求用户的明确批准。

  • 计划学习(Plan Learning):AI可以从过往任务中学习并保存计划,以便在未来的任务中更高效地执行。

应用场景

  • 复杂任务自动化:帮助用户完成多步骤的Web任务,如比较产品价格、填写在线表单或预订旅行。

  • 代码编写与执行辅助:生成代码片段并安全运行代码,例如数据分析或脚本编写。

  • 文件处理与信息检索:转换文件格式、搜索文件内容并回答相关问题。

  • 研究与开发:为研究人员提供实验平台,探索人机协作方式。

  • 教育与培训:作为教学工具,帮助学习任务规划和AI协作。

技术架构

Magentic-UI基于微软的Magentic-One多智能体系统,并由AutoGen框架驱动。其底层系统由四个专业智能体组成:

  • Orchestrator:负责任务规划、分解和协调。

  • WebSurfer:操控浏览器,完成网页导航和操作。

  • Coder:支持代码生成与执行。

  • FileSurfer:处理文件管理,支持多类型文档操作。

开源与使用

Magentic-UI以MIT许可证开源,代码已上架GitHub,用户可以免费下载和使用。此外,微软还提供了基于Azure AI Foundry Labs的云版本。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复