携手清华,面壁智能震撼推开源项目!独特中文应用专注GUI代理,全包高德、B站、小红书
发布时间:2025-05-14 18:06:26 | 责任编辑:吴昊 | 浏览量:2 次
随着人工智能技术的迅猛发展,智能化交互成为移动互联网的新焦点。近日,清华大学THUNLP实验室与面壁智能联合发布了一款革命性的开源项目——AgentCPM-GUI,这是全球首个针对中文APP精细优化的开源GUI(图形用户界面)Agent。该项目不仅展示了国产AI技术的硬核实力,还为安卓生态的智能化升级提供了全新可能。
模型地址:https://huggingface.co/openbmb/AgentCPM-GUI
技术突破:首个中文APP专精GUI Agent
AgentCPM-GUI基于面壁智能的MiniCPM-V模型构建,总参数量达8B(80亿)。该模型以手机屏幕图像作为输入,能够精准识别界面元素并自动执行用户指令。相比传统的通用Agent,AgentCPM-GUI针对中文APP进行了深度优化,覆盖包括高德地图、大众点评、哔哩哔哩、小红书在内的30余个主流中文应用,展现了卓越的本地化适配能力。
据小编了解,该Agent在界面元素定位和任务执行上表现出色。例如,在演示场景中,AgentCPM-GUI能够快速打开哔哩哔哩并检查特定UP主是否发布新视频,操作流畅且精准。这一功能的实现,得益于其对中文APP界面逻辑的深刻理解和高效的算法设计。
效率革命:平均动作长度仅9.7个Token
在端侧推理效率方面,AgentCPM-GUI同样表现亮眼。通过先进的模型压缩技术,该Agent将平均动作长度缩短至9.7个Token,显著降低了计算资源占用。这意味着即使在普通安卓设备上,AgentCPM-GUI也能实现快速响应和流畅运行,为用户带来接近原生应用的交互体验。
小编认为,这一效率提升不仅降低了开发者和用户的硬件门槛,还为AgentCPM-GUI在更多消费电子设备上的广泛部署奠定了基础。无论是智能手机、平板,还是其他智能终端,AgentCPM-GUI都有望成为智能化交互的核心引擎。
开源赋能:推动安卓生态智能化升级
作为一款完全开源的项目,AgentCPM-GUI的发布标志着清华大学与面壁智能对AI技术普惠化的坚定承诺。开发团队表示,AgentCPM-GUI的代码和相关文档已公开,开发者可以自由访问并基于此进行二次开发。这一举措将极大降低中文APP智能化交互的开发成本,助力更多中小型企业加入智能生态建设。
小编注意到,AgentCPM-GUI的开源还得到了业内广泛关注。业内人士指出,该项目不仅填补了中文GUI Agent领域的空白,还为全球安卓生态的智能化发展提供了宝贵参考。未来,随着更多开发者的参与,AgentCPM-GUI有望推动高德地图、大众点评等主流APP的交互体验迈上新台阶。
应用前景:从导航到社交,智能化无处不在
AgentCPM-GUI的出现,为中文APP的智能化应用开辟了广阔空间。在导航场景中,用户可以通过语音指令让AgentCPM-GUI自动操作高德地图规划路线;在社交场景中,Agent可快速浏览小红书笔记或哔哩哔哩视频,精准提取用户所需信息;在生活服务领域,大众点评的餐厅推荐和预订也能通过Agent实现一键操作。
小编预测,随着AgentCPM-GUI的普及,中文APP的用户体验将迎来质的飞跃。无论是提升操作效率,还是优化个性化服务,这款Agent都将成为连接用户与应用的智能桥梁。
国产AI的里程碑式突破
作为AI领域的专业媒体,小编认为,AgentCPM-GUI的发布不仅是清华大学与面壁智能在技术研发上的重大突破,也是国产AI迈向全球舞台的重要一步。其针对中文APP的精细优化和高效端侧推理能力,展现了中国AI企业在本地化场景中的独特优势。
清华大学THUNLP实验室联合面壁智能于2025年5月13日开源了端侧GUI Agent——AgentCPM-GUI。以下是其相关信息:
基本信息
-
模型架构:基于MiniCPM-V模型构建,总参数量8B。
-
输入方式:以手机屏幕图像为输入。
-
语言支持:支持中英文操作。
-
开源地址:
-
GitHub仓库:https://github.com/OpenBMB/AgentCPM-GUI。
-
HuggingFace模型库:https://huggingface.co/openbmb/AgentCPM-GUI。
-
功能特点
-
覆盖范围:覆盖高德地图、大众点评、B站、小红书等30多个主流中文APP,能够精准识别和操作APP界面元素。
-
任务执行:可自动执行用户提出的任务,如导航、点餐、内容浏览等,还能自动拆分任务步骤,在对应应用中准确执行。
-
推理能力:通过RFT(推理前思考)技术增强了规划推理能力,在执行用户指令前会先进行推理思考,生成更准确的动作序列,从而提升任务执行的成功率和可靠性。
-
动作空间设计:基于紧凑的JSON格式,将动作平均长度压缩至9.7个token,减少推理时的计算和内存需求,更适合在移动设备上部署。
应用场景
-
智能助手:帮助用户基于语音或文字指令完成各种应用操作,如点外卖、播放音乐等。
-
自动化测试:用于自动化测试中文应用的功能和界面,提高测试效率。
-
老年关怀:简化老年人使用智能手机的操作,如视频通话、查看天气等。
-
视障人士辅助:结合语音指令和屏幕阅读器,帮助视障人士更便捷地使用应用。
-
企业应用自动化:自动化执行企业中的重复性任务,如数据录入和报表生成,提高效率。
技术原理
-
预训练:基于大规模中文安卓应用界面数据进行预训练,覆盖常见的按钮、输入框、标签、图标等通用GUI控件,具备OCR Grounding能力,准确定位和识别屏幕中的文本内容。
-
强化微调:设计动作格式奖励、动作类型奖励、动作参数奖励三个维度的奖励函数,引导模型自主生成高质量的思维链过程,在奖励函数的引导下,模型不断优化自身策略,获取更高的奖励,提升任务的执行成功率。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
上一篇: ai写小说的软件是什么?
下一篇: ai写标书的软件叫什么?