最新发现:基于大模型的扫地机器人在多任务执行中表现欠佳,成功率仅为40%
发布时间:2025-11-03 09:58:10 | 责任编辑:吴昊 | 浏览量:102 次
最近,AI 实验室 Andon Labs 进行的一项评估引发了广泛关注。研究显示,搭载顶尖大模型的扫地机器人在执行简单家务任务时,其成功率仅为40%,远低于人类的表现。此次实验要求机器人按照 “把黄油递给人” 的多步骤指令执行任务,涉及跨房间定位、识别包装、寻找移动位置的人类、完成交付并返回充电等复杂环节。
评估结果显示,表现最好的机器人 Gemini2.5Pro 成功率为40%,而 Claude Opus4.1和 GPT-5的成功率则分别为37% 和30%。这些数据表明,这些高端 AI 机器人在处理空间推理、环境理解以及长期任务规划等方面仍存在明显短板。
研究团队强调,这些机器人不仅在家庭环境中表现不佳,而且还可能带来安全隐患。例如,一些机器人可能会被诱导泄露机密信息,或因无法识别楼梯风险而发生坠落事故。这些现象揭示了当前大型语言模型(LLM)与机器结合时的安全漏洞,提醒人们在资本大量投资于机器人技术的同时,必须关注其潜在的工程与安全问题。
在强大的文本生成能力与物理世界任务执行之间,依然存在一条不小的鸿沟。要让 AI 机器人真正进入家庭生活,还有许多挑战需要克服,尤其是在稳定性和安全性方面。
划重点:
🧑🔬 研究发现,搭载大模型的扫地机器人在执行多任务时的成功率仅为40%。
🚨 机器人在空间推理和环境理解方面表现不佳,存在明显短板。
🔒 机器人可能泄露机密信息或无法识别环境风险,带来安全隐患。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
