首页 > 快讯 > 首个AIGC机器人大模型VPP由清华与星动纪元携手推出

首个AIGC机器人大模型VPP由清华与星动纪元携手推出

发布时间：2025-05-07 17:42:44 | 责任编辑：张毅 | 浏览量：81 次

近日，清华大学叉院的 ISRLab 与北京星动纪元科技有限公司携手推出了首个 AIGC（人工智能生成内容）机器人大模型 ——VPP(视频预测策略)。这一创新成果在2025年国际机器学习大会(ICML2025)上荣获 Spotlight 论文奖，显示出其在全球 AI 研究领域的前沿地位。
AIGC 技术近年来迅速崛起，从生成式文本模型到视频生成技术，其应用范围不断扩大。而 VPP 的诞生标志着这一技术的应用迈向了具身智能机器人领域。VPP 的独特之处在于其利用了海量互联网视频数据进行训练，使得机器人能够在接收到简单指令后，实时预测未来场景并执行相应动作。例如，用户只需说出 “给我盛一碗热腾腾的鸡汤”，VPP 模型便能让机器人完成这一任务。
根据 ICML2025的统计，今年的 Spotlight 论文评选竞争激烈，投稿总数超过12000篇，而获奖论文仅占2.6%。VPP 通过将视频扩散模型的泛化能力引入机器人操作策略，创新性地解决了传统推理速度的瓶颈，实现了机器人实时预测和动作执行的能力，显著提升了策略的泛化性。
VPP 的学习框架分为两个阶段，首先利用视频扩散模型学习预测性视觉表征，然后通过 Video Former 和 DiT 扩散策略进行动作学习。这种方法使得机器人不仅能快速响应用户指令，还能在不同的人形机器人平台之间自如切换，极大降低了对高质量实机数据的依赖，推动了机器人技术的商业化进程。
在基准测试中，VPP 的表现也令人瞩目。在 Calvin ABC-D 基准测试中，其任务完成平均长度达到4.33，成功率显著高于现有技术，展现出其卓越的性能。此外，VPP 的多任务学习能力也在真实环境中得到了验证，能够完成100多种复杂的灵巧操作任务。

2025年5月7日，清华大学叉院的ISRLab与星动纪元联合发布了首个AIGC机器人大模型VPP（Video Prediction Policy）。这一模型是机器人技术领域的重大突破，已入选ICML2025 Spotlight。

模型特点

视频扩散模型泛化能力的应用：VPP将视频扩散模型的泛化能力转移到通用机器人操作策略中，解决了传统diffusion推理速度慢的问题，使机器人能够实时进行未来预测和动作执行。
利用互联网视频数据训练：该模型利用大量互联网视频数据进行训练，直接学习人类动作，减轻了对高质量机器人真机数据的依赖。
跨本体学习能力：VPP能够在不同人形机器人本体之间自如切换，降低了数据获取成本，加速了人形机器人的商业化落地。
高频预测与动作执行：VPP的预测频率可达6-10Hz，控制频率超过50Hz，极大提升了动作执行的流畅性。
优异的基准测试表现：在Calvin ABC-D基准测试中，VPP的任务完成平均长度达到4.33，真机测试成功率为67%，显著优于其他方法。

开源与应用前景

VPP现已全部开源，相关代码和项目信息可在GitHub上查看。这一开源举措将为具身智能机器人的发展提供强大的技术支持，推动机器人技术的商业化进程。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。