首页 > 快讯 > Gemini Robotics On-Device: Deepmind发布的最新机器人AI模型

Gemini Robotics On-Device: Deepmind发布的最新机器人AI模型

发布时间：2025-06-25 09:13:36 | 责任编辑：张毅 | 浏览量：487 次

Google DeepMind正式发布其新一代机器人AI模型Gemini Robotics On-Device，标志着机器人AI技术迈向更高效、更独立的里程碑。这一模型不仅能够在无互联网连接的情况下在机器人本地运行，还展现出强大的通用性和任务适应能力，为工业、仓储及家庭服务机器人领域带来革命性突破。
突破云端限制，机器人AI本地化运行
Gemini Robotics On-Device是一款基于Google Gemini2.0打造的视觉-语言-动作（VLA）模型，最大特点是完全运行于机器人本地硬件，无需依赖云端计算资源。这解决了传统云端机器人系统在网络不稳定环境下的延迟和可靠性问题。DeepMind高级总监Carolina Parada表示:“该模型小巧高效，能够直接运行于机器人硬件，确保低延迟和离线环境下的稳定表现。”
通过本地化运行，Gemini Robotics On-Device大幅提升了机器人在网络受限场景（如工厂、仓库或偏远地区）的实用性。测试显示，其性能接近云端Gemini Robotics模型，同时在多项基准测试中超越其他本地AI模型，展现出强大的竞争力。
通用性与灵活性:从50次演示到新任务
Gemini Robotics On-Device不仅在性能上令人瞩目，其任务适应能力也堪称亮点。DeepMind宣称，该模型仅需50至100次演示即可快速适应新任务，例如解拉链、叠衣服或进行工业装配。
该模型最初针对ALOHA机器人训练，但已成功适配双臂Franka FR3机器人和Apptronik的Apollo人形机器人，展现出跨硬件平台的通用性。开发者可通过自然语言指令控制和微调模型，使其轻松应对复杂双臂任务或动态环境中的新对象。Parada强调:“生成式AI让机器人能够从少量数据中泛化，显著加速了在复杂场景中的部署。”
开放开发者生态，SDK赋能创新
为加速Gemini Robotics On-Device的行业应用，Google DeepMind同步发布了一款软件开发工具包（SDK），现已通过GitHub向“受信任测试者”计划开放申请。开发者可利用SDK在Google的MuJoCo物理模拟器或现实环境中测试和微调模型。这一举措标志着DeepMind首次向开发者开放VLA模型的微调权限，为机器人AI的定制化应用铺平道路。
SDK支持开发者通过少量演示快速训练机器人完成特定任务，例如将魔方放入袋子或处理精细的工业操作。DeepMind表示，该模型在未见过的新场景和对象上表现出色，例如在工业传送带上完成装配任务，显示出强大的泛化能力。
安全与行业前景:机器人AI的下一步
在安全方面，DeepMind强调Gemini Robotics On-Device通过全面的安全措施和与专家、政策制定者的合作，力求降低潜在风险。与此同时，该模型的发布也被视为Google与Nvidia GR00T、OpenAI RT-2等竞争对手在通用机器人AI领域的激烈角逐的一部分。
从仓库机器人到家用服务机器人，Gemini Robotics On-Device的本地化运行能力和快速学习特性为其在多场景中的广泛应用奠定了基础。小编认为，这一技术不仅将降低机器人部署成本，还可能推动AI驱动的自动化进入更多日常生活场景。
模型入口：https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/

谷歌DeepMind于2025年3月12日推出了两款基于Gemini 2.0的新一代机器人AI模型：Gemini Robotics和Gemini Robotics-ER。

Gemini Robotics

核心能力：Gemini Robotics是一个视觉-语言-动作（VLA）模型，它在Gemini 2.0的基础上增加了物理动作作为新的输出方式，可以直接控制机器人。该模型能够处理视觉信息、理解语言指令，并生成相应的物理动作。
性能特点：
- 通用性：能够适应各种不同的情境和任务，泛化能力较强。
- 交互性：可以快速理解并响应人类的指令或环境的变化。
- 灵活性：能够执行精细的物理操作，如折纸、拧瓶盖、装饭盒等。
- 泛化性能：在综合泛化基准测试中，其性能比其他最先进的VLA模型高出一倍以上。
应用场景：适用于多种类型的机器人，包括人形机器人、双臂机器人等。它可以在家庭、工作场所等场景中与人类协作，完成各种现实世界任务。

Gemini Robotics-ER

核心能力：Gemini Robotics-ER专注于具身推理（ER），具有高级空间理解能力。它能够帮助机器人更好地理解复杂多变的现实世界，特别是需要考虑物体位置与操作方式的推理任务。
性能特点：机器人专家可以利用Gemini Robotics-ER的具身推理能力，将其连接到现有的机器人控制系统中，运行自己的程序。
应用场景：主要用于需要复杂空间推理的任务，如在装饭盒时考虑物品摆放位置和操作方式。

合作与未来展望

谷歌DeepMind正在与Apptronik、Agile Robots、Agility Robots、Boston Dynamics和Enchanted Tools等公司合作，利用Gemini 2.0开发下一代人形机器人。此外，Gemini Robotics-ER也向这些受信任的测试者开放，以进一步探索其潜力。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。