首页 > 快讯 > 清华携手星动纪元首次公开发布AIGC机器人VPP大模型源代码

清华携手星动纪元首次公开发布AIGC机器人VPP大模型源代码

发布时间：2025-05-07 16:40:45 | 责任编辑：张毅 | 浏览量：548 次

近日，星动纪元宣布，已与清华大学叉院的 ISRLab 合作，开源了首个 AIGC（生成式人工智能内容）机器人大模型 ——VPP(视频预测策略)。这一创新成果有望在机器人领域带来革命性的进展。
VPP 模型通过将视频扩散模型的泛化能力引入到通用机器人操作策略中，解决了以往机器人推理速度慢的问题。VPP 能够实时预测未来动作，从而极大提升机器人的策略泛化能力。值得注意的是，这一模型已在国际机器学习大会（ICML2025）上获得 Spotlight 认可，展现出其研究的前沿性和重要性。
实时预测与高效执行
VPP 的一大亮点在于其预测能力。传统的机器人策略通常依赖于当前观测来进行动作学习，而 VPP 则能够提前 “预知” 未来的场景，从而在执行指令时显得更加从容。通过该模型，机器人的执行速度能够实现 “更快一步”，在仅需150毫秒的推理时间内，预测频率达到6-10Hz，控制频率更是超过50Hz，极大提升了动作执行的流畅性。
跨本体学习的优势
在以往的模型中，不同类型机器人的数据难以融合，导致学习效率低下。而 VPP 能够直接利用多种形态机器人的视频数据进行学习，降低了对高质量真实数据的依赖。此外，VPP 还可通过学习人类动作数据，进一步提升模型的泛化能力。
基准测试表现优异
在最近的 Calvin ABC-D 基准测试中，VPP 模型以4.33的任务完成平均长度接近满分5.0，展现出显著的性能优势。与之前的技术相比，VPP 提升幅度达41.5%。在真实世界的灵巧操作测试中，该模型在多任务学习和泛化能力上同样表现不俗，能完成超过100种复杂操作任务，显示出其在实际应用中的强大潜力。
VPP 模型的可解释性也是其一大亮点。开发者能够通过模型预测的视频提前识别潜在的失败场景，并进行针对性的调试与优化，相较于传统的端到端模型，这一优势使得开发过程更加高效。
项目地址:https://video-prediction-policy.github.io

2025年5月7日，清华大学与星动纪元联合开源了首个AIGC机器人大模型VPP（Video Prediction Policy），这是机器人技术领域的一项重大突破。

模型特点

视频扩散模型的应用：VPP将视频扩散模型的泛化能力引入到通用机器人操作策略中，解决了传统diffusion模型推理速度慢的问题，使机器人能够实时进行未来预测和动作执行。
高频预测与执行：VPP的推理时间仅需150毫秒，预测频率达到6-10Hz，控制频率超过50Hz，极大提升了动作执行的流畅性。
数据来源与泛化能力：该模型利用大量互联网视频数据进行训练，直接学习人类动作，减轻了对高质量机器人真机数据的依赖。此外，VPP还能在不同人形机器人本体之间自如切换，展现出强大的泛化能力。
多任务学习与表现：VPP在Calvin ABC-D基准测试中表现出色，任务完成平均长度达到4.33，真机测试成功率为67%。在真实世界的复杂灵巧操作任务中，如抓取、放置、堆叠、倒水和工具使用等，VPP也能出色完成。

学术与应用价值

学术认可：VPP的相关成果已入选ICML 2025 Spotlight，这表明其在学术领域的前沿性和重要性。
推动商业化落地：VPP的开源为具身智能机器人的发展提供了强大的技术支持，有望加速人形机器人的商业化落地。

开源信息

VPP的开源代码已发布在GitHub上，开发者可以通过以下链接访问和使用：

论文地址：https://arxiv.org/pdf/2412.14803
项目地址：https://video-prediction-policy.github.io
开源代码：https://github.com/roboterax/video-prediction-policy

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。