首页 > 快讯 > 面壁智能与清华大学联合推出端侧GUI智能体：AgentCPM-GUI

面壁智能与清华大学联合推出端侧GUI智能体：AgentCPM-GUI

发布时间：2025-05-14 15:13:57 | 责任编辑：吴昊 | 浏览量：687 次

近日，清华大学THUNLP实验室联合面壁智能推出了一款创新的端侧GUI Agent——**AgentCPM-GUI**，为移动设备的人机交互带来全新突破。该智能体基于**MiniCPM-V**模型构建，总参数量仅**8B**，以手机屏幕图像为输入，支持中英文操作，可自动执行用户提出的任务，展现出强大的GUI元素定位能力。
AgentCPM-GUI覆盖了包括**高德地图**、**大众点评**、**B站**、**小红书**在内的**30多个主流中文APP**，能够精准识别和操作APP界面元素，满足多样化的用户需求。无论是导航、点餐还是内容浏览，AgentCPM-GUI都能高效完成任务，极大提升了用户体验。
值得一提的是，该模型通过**RFT（推理前思考）**技术增强了规划推理能力。在执行用户指令前，AgentCPM-GUI会先进行推理思考，生成更准确的动作序列，从而提升任务执行的成功率和可靠性。这一技术的应用使其在端侧AI领域表现尤为突出。
作为一款轻量级高性能模型，AgentCPM-GUI在手机等端侧设备上运行流畅，展现了清华大学THUNLP实验室与面壁智能在AI技术上的深厚实力。未来，这款GUI Agent有望进一步推动端侧AI的普及与应用，助力智能设备迈向更高效的交互时代。

清华大学与面壁智能团队联合发布了开源端侧GUI Agent——AgentCPM-GUI。以下是关于该模型的详细介绍：

模型概述

AgentCPM-GUI是基于MiniCPM-V（80亿参数）构建的端侧GUI智能体模型，针对中文应用进行了优化，能够接受智能手机截图作为输入，并自主执行用户指定的任务。

主要功能

中文应用操作：理解和操作多种中文应用，如高德地图、大众点评、哔哩哔哩和小红书等。
任务自动化执行：接受用户指令后，自动拆分任务步骤，在对应应用中准确执行，如点单、播放视频等。
高质量GUI定位：准确定位屏幕上的按钮、输入框、标签等GUI元素。
OCR定位与识别：识别屏幕中的文本内容，根据文本描述

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。