首页 > 快讯 > MAI-UI:阿里巴巴通义实验室推出领先同行的高级 GUI 智能代理系列

MAI-UI:阿里巴巴通义实验室推出领先同行的高级 GUI 智能代理系列

发布时间:2025-12-31 09:53:10 | 责任编辑:吴昊 | 浏览量:5 次

阿里巴巴通义实验室近日发布了 MAI-UI,这是一个多模态的基础 GUI 智能代理家族。该系统不仅能够实现人机交互,还能整合 MCP 工具使用、设备与云端协作,以及在线强化学习,从而在通用 GUI 基础和移动 GUI 导航方面取得了领先的成果,超越了 Gemini2.5Pro、Seed1.8和 UI-Tars2等同行。
MAI-UI 采用了 Qwen3VL 构建,具有2B、8B、32B 和235B A22B 等不同规模的模型。这些模型能够接收自然语言指令和 UI 截图作为输入,并输出结构化的操作,支持在实时 Android 环境中进行操作。这些操作包括点击元素、滑动、输入文本以及按下系统按钮等。同时,MAI-UI 还引入了能够回答用户问题、请求用户澄清模糊目标的明确动作,并通过 MCP 工具调用外部工具,使代理能够在同一轨迹中混合 GUI 步骤、直接语言响应和 API 级操作。
在 GUI 的基础上,MAI-UI 通过自我演进的数据管道和在线强化学习框架,确保其导航能力的稳健性。Tongyi 实验室利用从应用手册、设计场景和公共数据中获取的种子任务,经过多个代理与人类标注员的执行,生成任务轨迹,从而优化导航行为。
在 MobileWorld 基准测试中,MAI-UI 展示了其卓越的性能,成功率达到41.7%。在 AndroidWorld 基准测试中,MAI-UI 的最大变体成功率为76.7%,超越了其他同类产品。
MAI-UI 的推出标志着在移动应用领域的 GUI 智能代理技术取得了重大进展,使得智能设备在处理复杂操作时更为高效和智能。
github:https://github.com/Tongyi-MAI/MAI-UI
划重点:
🌟 MAI-UI 是阿里巴巴 Tongyi 实验室推出的 GUI 智能代理家族,整合多项先进技术。
📱 MAI-UI 支持多种操作,并能够在实时 Android 环境中进行复杂的用户交互。
🚀 在 MobileWorld 和 AndroidWorld 等基准测试中,MAI-UI 的性能显著超越竞争对手。

MAI-UI:阿里巴巴通义实验室推出领先同行的高级 GUI 智能代理系列

这是一篇关于阿里巴巴通义实验室推出 MAI-UI:超越同行的基础 GUI 智能代理家族的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐