面壁智能与清华大学联合推出端侧GUI智能体:AgentCPM-GUI
发布时间:2025-05-14 15:13:57 | 责任编辑:吴昊 | 浏览量:7 次
近日,清华大学THUNLP实验室联合面壁智能推出了一款创新的端侧GUI Agent——**AgentCPM-GUI**,为移动设备的人机交互带来全新突破。该智能体基于**MiniCPM-V**模型构建,总参数量仅**8B**,以手机屏幕图像为输入,支持中英文操作,可自动执行用户提出的任务,展现出强大的GUI元素定位能力。
AgentCPM-GUI覆盖了包括**高德地图**、**大众点评**、**B站**、**小红书**在内的**30多个主流中文APP**,能够精准识别和操作APP界面元素,满足多样化的用户需求。无论是导航、点餐还是内容浏览,AgentCPM-GUI都能高效完成任务,极大提升了用户体验。
值得一提的是,该模型通过**RFT(推理前思考)**技术增强了规划推理能力。在执行用户指令前,AgentCPM-GUI会先进行推理思考,生成更准确的动作序列,从而提升任务执行的成功率和可靠性。这一技术的应用使其在端侧AI领域表现尤为突出。
作为一款轻量级高性能模型,AgentCPM-GUI在手机等端侧设备上运行流畅,展现了清华大学THUNLP实验室与面壁智能在AI技术上的深厚实力。未来,这款GUI Agent有望进一步推动端侧AI的普及与应用,助力智能设备迈向更高效的交互时代。
清华大学与面壁智能团队联合发布了开源端侧GUI Agent——AgentCPM-GUI。以下是关于该模型的详细介绍:
模型概述
AgentCPM-GUI是基于MiniCPM-V(80亿参数)构建的端侧GUI智能体模型,针对中文应用进行了优化,能够接受智能手机截图作为输入,并自主执行用户指定的任务。
主要功能
-
中文应用操作:理解和操作多种中文应用,如高德地图、大众点评、哔哩哔哩和小红书等。
-
任务自动化执行:接受用户指令后,自动拆分任务步骤,在对应应用中准确执行,如点单、播放视频等。
-
高质量GUI定位:准确定位屏幕上的按钮、输入框、标签等GUI元素。
-
OCR定位与识别:识别屏幕中的文本内容,根据文本描述
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。