清华携手星动纪元首次公开发布AIGC机器人VPP大模型源代码
发布时间:2025-05-07 16:40:45 | 责任编辑:张毅 | 浏览量:56 次
近日,星动纪元宣布,已与清华大学叉院的 ISRLab 合作,开源了首个 AIGC(生成式人工智能内容)机器人大模型 ——VPP(视频预测策略)。这一创新成果有望在机器人领域带来革命性的进展。
VPP 模型通过将视频扩散模型的泛化能力引入到通用机器人操作策略中,解决了以往机器人推理速度慢的问题。VPP 能够实时预测未来动作,从而极大提升机器人的策略泛化能力。值得注意的是,这一模型已在国际机器学习大会(ICML2025)上获得 Spotlight 认可,展现出其研究的前沿性和重要性。
实时预测与高效执行
VPP 的一大亮点在于其预测能力。传统的机器人策略通常依赖于当前观测来进行动作学习,而 VPP 则能够提前 “预知” 未来的场景,从而在执行指令时显得更加从容。通过该模型,机器人的执行速度能够实现 “更快一步”,在仅需150毫秒的推理时间内,预测频率达到6-10Hz,控制频率更是超过50Hz,极大提升了动作执行的流畅性。
跨本体学习的优势
在以往的模型中,不同类型机器人的数据难以融合,导致学习效率低下。而 VPP 能够直接利用多种形态机器人的视频数据进行学习,降低了对高质量真实数据的依赖。此外,VPP 还可通过学习人类动作数据,进一步提升模型的泛化能力。
基准测试表现优异
在最近的 Calvin ABC-D 基准测试中,VPP 模型以4.33的任务完成平均长度接近满分5.0,展现出显著的性能优势。与之前的技术相比,VPP 提升幅度达41.5%。在真实世界的灵巧操作测试中,该模型在多任务学习和泛化能力上同样表现不俗,能完成超过100种复杂操作任务,显示出其在实际应用中的强大潜力。
VPP 模型的可解释性也是其一大亮点。开发者能够通过模型预测的视频提前识别潜在的失败场景,并进行针对性的调试与优化,相较于传统的端到端模型,这一优势使得开发过程更加高效。
项目地址:https://video-prediction-policy.github.io
2025年5月7日,清华大学与星动纪元联合开源了首个AIGC机器人大模型VPP(Video Prediction Policy),这是机器人技术领域的一项重大突破。
模型特点
-
视频扩散模型的应用:VPP将视频扩散模型的泛化能力引入到通用机器人操作策略中,解决了传统diffusion模型推理速度慢的问题,使机器人能够实时进行未来预测和动作执行。
-
高频预测与执行:VPP的推理时间仅需150毫秒,预测频率达到6-10Hz,控制频率超过50Hz,极大提升了动作执行的流畅性。
-
数据来源与泛化能力:该模型利用大量互联网视频数据进行训练,直接学习人类动作,减轻了对高质量机器人真机数据的依赖。此外,VPP还能在不同人形机器人本体之间自如切换,展现出强大的泛化能力。
-
多任务学习与表现:VPP在Calvin ABC-D基准测试中表现出色,任务完成平均长度达到4.33,真机测试成功率为67%。在真实世界的复杂灵巧操作任务中,如抓取、放置、堆叠、倒水和工具使用等,VPP也能出色完成。
学术与应用价值
-
学术认可:VPP的相关成果已入选ICML 2025 Spotlight,这表明其在学术领域的前沿性和重要性。
-
推动商业化落地:VPP的开源为具身智能机器人的发展提供了强大的技术支持,有望加速人形机器人的商业化落地。
开源信息
VPP的开源代码已发布在GitHub上,开发者可以通过以下链接访问和使用:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
上一篇: 哪些AI工具可以用来辅助制作PPT?