首页 > 快讯 > 携手清华，面壁智能震撼推开源项目！独特中文应用专注GUI代理，全包高德、B站、小红书

携手清华，面壁智能震撼推开源项目！独特中文应用专注GUI代理，全包高德、B站、小红书

发布时间：2025-05-14 18:06:26 | 责任编辑：吴昊 | 浏览量：145 次

《携手清华，面壁智能震撼推开源项目！独特中文应用专注GUI代理，全包高德、B站、小红书》相关软件官网

随着人工智能技术的迅猛发展，智能化交互成为移动互联网的新焦点。近日，清华大学THUNLP实验室与面壁智能联合发布了一款革命性的开源项目——AgentCPM-GUI，这是全球首个针对中文APP精细优化的开源GUI（图形用户界面）Agent。该项目不仅展示了国产AI技术的硬核实力，还为安卓生态的智能化升级提供了全新可能。
模型地址：https://huggingface.co/openbmb/AgentCPM-GUI
技术突破:首个中文APP专精GUI Agent
AgentCPM-GUI基于面壁智能的MiniCPM-V模型构建，总参数量达8B（80亿）。该模型以手机屏幕图像作为输入，能够精准识别界面元素并自动执行用户指令。相比传统的通用Agent，AgentCPM-GUI针对中文APP进行了深度优化，覆盖包括高德地图、大众点评、哔哩哔哩、小红书在内的30余个主流中文应用，展现了卓越的本地化适配能力。
据小编了解，该Agent在界面元素定位和任务执行上表现出色。例如，在演示场景中，AgentCPM-GUI能够快速打开哔哩哔哩并检查特定UP主是否发布新视频，操作流畅且精准。这一功能的实现，得益于其对中文APP界面逻辑的深刻理解和高效的算法设计。
效率革命:平均动作长度仅9.7个Token
在端侧推理效率方面，AgentCPM-GUI同样表现亮眼。通过先进的模型压缩技术，该Agent将平均动作长度缩短至9.7个Token，显著降低了计算资源占用。这意味着即使在普通安卓设备上，AgentCPM-GUI也能实现快速响应和流畅运行，为用户带来接近原生应用的交互体验。
小编认为，这一效率提升不仅降低了开发者和用户的硬件门槛，还为AgentCPM-GUI在更多消费电子设备上的广泛部署奠定了基础。无论是智能手机、平板，还是其他智能终端，AgentCPM-GUI都有望成为智能化交互的核心引擎。
开源赋能:推动安卓生态智能化升级
作为一款完全开源的项目，AgentCPM-GUI的发布标志着清华大学与面壁智能对AI技术普惠化的坚定承诺。开发团队表示，AgentCPM-GUI的代码和相关文档已公开，开发者可以自由访问并基于此进行二次开发。这一举措将极大降低中文APP智能化交互的开发成本，助力更多中小型企业加入智能生态建设。
小编注意到，AgentCPM-GUI的开源还得到了业内广泛关注。业内人士指出，该项目不仅填补了中文GUI Agent领域的空白，还为全球安卓生态的智能化发展提供了宝贵参考。未来，随着更多开发者的参与，AgentCPM-GUI有望推动高德地图、大众点评等主流APP的交互体验迈上新台阶。
应用前景:从导航到社交，智能化无处不在
AgentCPM-GUI的出现，为中文APP的智能化应用开辟了广阔空间。在导航场景中，用户可以通过语音指令让AgentCPM-GUI自动操作高德地图规划路线;在社交场景中，Agent可快速浏览小红书笔记或哔哩哔哩视频，精准提取用户所需信息;在生活服务领域，大众点评的餐厅推荐和预订也能通过Agent实现一键操作。
小编预测，随着AgentCPM-GUI的普及，中文APP的用户体验将迎来质的飞跃。无论是提升操作效率，还是优化个性化服务，这款Agent都将成为连接用户与应用的智能桥梁。
国产AI的里程碑式突破
作为AI领域的专业媒体，小编认为，AgentCPM-GUI的发布不仅是清华大学与面壁智能在技术研发上的重大突破，也是国产AI迈向全球舞台的重要一步。其针对中文APP的精细优化和高效端侧推理能力，展现了中国AI企业在本地化场景中的独特优势。

携手清华，面壁智能震撼推开源项目！独特中文应用专注GUI代理，全包高德、B站、小红书-项目/模型网址:
GitHub Model Scope

携手清华，面壁智能震撼推开源项目！独特中文应用专注GUI代理，全包高德、B站、小红书

清华大学THUNLP实验室联合面壁智能于2025年5月13日开源了端侧GUI Agent——AgentCPM-GUI。以下是其相关信息：

基本信息

模型架构：基于MiniCPM-V模型构建，总参数量8B。
输入方式：以手机屏幕图像为输入。
语言支持：支持中英文操作。
开源地址：
- GitHub仓库：https://github.com/OpenBMB/AgentCPM-GUI。
- HuggingFace模型库：https://huggingface.co/openbmb/AgentCPM-GUI。

功能特点

覆盖范围：覆盖高德地图、大众点评、B站、小红书等30多个主流中文APP，能够精准识别和操作APP界面元素。
任务执行：可自动执行用户提出的任务，如导航、点餐、内容浏览等，还能自动拆分任务步骤，在对应应用中准确执行。
推理能力：通过RFT（推理前思考）技术增强了规划推理能力，在执行用户指令前会先进行推理思考，生成更准确的动作序列，从而提升任务执行的成功率和可靠性。
动作空间设计：基于紧凑的JSON格式，将动作平均长度压缩至9.7个token，减少推理时的计算和内存需求，更适合在移动设备上部署。

应用场景

智能助手：帮助用户基于语音或文字指令完成各种应用操作，如点外卖、播放音乐等。
自动化测试：用于自动化测试中文应用的功能和界面，提高测试效率。
老年关怀：简化老年人使用智能手机的操作，如视频通话、查看天气等。
视障人士辅助：结合语音指令和屏幕阅读器，帮助视障人士更便捷地使用应用。
企业应用自动化：自动化执行企业中的重复性任务，如数据录入和报表生成，提高效率。

技术原理

预训练：基于大规模中文安卓应用界面数据进行预训练，覆盖常见的按钮、输入框、标签、图标等通用GUI控件，具备OCR Grounding能力，准确定位和识别屏幕中的文本内容。
强化微调：设计动作格式奖励、动作类型奖励、动作参数奖励三个维度的奖励函数，引导模型自主生成高质量的思维链过程，在奖励函数的引导下，模型不断优化自身策略，获取更高的奖励，提升任务的执行成功率。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： ai写小说的软件是什么？

下一篇： ai写标书的软件叫什么？

最新Ai工具

新

VideoLingo 中国🇨🇳

VideoLingo 是一款专注于视频内容本地化的 AI 工具，提供多语言翻译、专业术语识别、智能字幕生成和智能配音等功能，帮助用户快速实现高质量的视频本地化。

新

Vid2txt 美国🇺🇸

Vid2txt 是一款简单易用的 AI 驱动的视频和音频转录应用，支持多种格式，提供快速、准确且离线的转录服务。

新

Vespa 挪威🇳🇴

Vespa 是一个专注于开发和运营大规模应用的AI搜索平台，结合了大数据、向量搜索、机器学习排序和实时推理。它支持原生张量操作，适用于复杂排序和决策，能够实现企业级的实时AI应用，如RAG（检索增强生成）、推荐和智能搜索。Vespa 支持查询、组织和推断向量、张量、文本和结构化数据，能够在低延迟（低于100毫秒）的情况下处理数十亿动态变化的数据项和数千次查询。它还支持混合搜索、相关性模型和多向量表示，适用于生成式AI应用、推荐和个性化系统、半结构化导航以及个人/私密搜索等多种场景。

新

Vault 美国🇺🇸

Vault 是一个基于 AI 的内容智能平台，通过预测性内容智能技术，帮助媒体公司和内容创作者提前预测内容表现，优化内容生命周期中的决策。

新

Vanna 美国🇺🇸

Vanna 是一个企业级的AI解决方案平台，专注于数据检索、分析和文本到SQL的能力。它提供多种产品，包括无需设置即可使用的Vanna Cloud、可在企业内部部署的Vanna Self-Hosted Enterprise、可通过API集成到现有应用中的Vanna Embedded，以及完全开源的Vanna OSS。Vanna 的核心优势在于其高准确性、安全性设计、自学习能力和高度可定制性，支持多种数据库和前端集成，帮助用户通过自然语言查询快速获取数据库中的洞察，减少编写SQL的时间。

新