首页 > 快讯 > 阿里发布Mobile-Agent 3开源项目:GUI代理系列的强大新成员

阿里发布Mobile-Agent 3开源项目:GUI代理系列的强大新成员

发布时间:2025-08-25 11:32:57 | 责任编辑:吴昊 | 浏览量:14 次

今日,X-PLUG 团队在 GitHub 上正式发布了其最新项目 Mobile-Agent-v3,这是一款基于 GUI-Owl 的跨平台多代理框架。Mobile-Agent-v3具备强大的规划、进度管理、反思和记忆能力,旨在提升用户的 GUI 自动化体验。
GUI-Owl 作为 Mobile-Agent-v3的基础模型,融合了感知、基础、推理、规划和执行等多项功能,是一款原生的端到端多模态代理。它的设计使得跨平台交互和多回合决策变得更加流畅,具有明确的中间推理能力。这意味着用户在进行多任务操作时,可以获得更为稳定的性能表现。
X-PLUG 团队特别提到,Mobile-Agent-v3不仅在功能上进行了优化,同时还加强了异常处理和反思能力,确保在面对弹窗和广告等干扰时依然能够保持高效的操作。此外,Mobile-Agent-v3的关键信息记录功能,使得跨应用任务的执行变得更加便捷,极大地方便了用户的日常操作。
同时,Mobile-Agent 的多个前身版本,如 Mobile-Agent-v2和 PC-Agent,分别在 NeurIPS2024和 ICLR2025的会议上获得接受,显示出该项目在学术研究领域的广泛影响力。
值得一提的是,X-PLUG 团队还提供了丰富的资源支持,包括技术报告、演示视频和代码库,使得开发者和研究人员能够更深入地探索 Mobile-Agent 的潜力。通过这些资源,用户不仅可以体验到 Mobile-Agent 的强大功能,还能够参与到其后续的开发和优化中。
地址:https://github.com/X-PLUG/MobileAgent

阿里发布Mobile-Agent 3开源项目:GUI代理系列的强大新成员

阿里巴巴在 2025 年 8 月开源的 Mobile-Agent-v3 与其核心模型 GUI-Owl,构成了目前业界最强的开源 GUI 代理家族。

一、核心组成

  1. Mobile-Agent-v3:第三代跨平台 GUI 智能体框架,支持 Android、Windows、macOS、Linux 及 Web 环境。

  2. GUI-Owl:7B 参数的多模态虚拟层模型(VLM),原生端到端,集感知、推理、规划、执行为一体,已在 AndroidWorld、OSWorld 等 10 余项基准测试夺得 SOTA 成绩(AndroidWorld 73.3%,OSWorld 37.7%)。

二、关键能力

  • 多平台无缝自动化:通过屏幕截图即可操控不同系统,无需底层 API,兼顾隐私与兼容性。

  • 自然语言驱动:一句话指令即可自动分解任务并执行,例如“在美团外卖点一碗山西刀削面”可完成打开 App、选餐、下单全流程。

  • 自我反思与优化:内置异常检测与轨迹重规划机制,弹窗、广告、网络延迟等均可自动处理。

  • 跨应用协同:可在多个应用间传递数据并连续操作,例如抓取社交内容后自动发邮件。

  • 完全开源:代码与权重已在 GitHub 公开,配套教程、API 文档、一键云端部署方案齐备,开发者可自由定制。

三、典型场景

  • 企业批量运维:远程批量安装/卸载应用、配置设备。

  • 软件测试:跨平台 UI 自动化回归测试,效率提升 10 倍以上。

  • 科研/教育:自动搭建实验环境、生成并执行实验脚本。

  • 无障碍辅助:帮助视障用户通过语音完成复杂界面操作。

四、开源地址
GitHub: https://github.com/X-PLUG/MobileAgent

一句话总结:Mobile-Agent-v3 + GUI-Owl 用开源的方式把“看屏幕就能干活”的 AI 代理做到了当前最强,跨手机、电脑、Web,一句话就能指挥,且人人可用、可改、可商用。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐