首个AIGC机器人大模型VPP由清华与星动纪元携手推出
发布时间:2025-05-07 17:42:44 | 责任编辑:张毅 | 浏览量:21 次
近日,清华大学叉院的 ISRLab 与北京星动纪元科技有限公司携手推出了首个 AIGC(人工智能生成内容)机器人大模型 ——VPP(视频预测策略)。这一创新成果在2025年国际机器学习大会(ICML2025)上荣获 Spotlight 论文奖,显示出其在全球 AI 研究领域的前沿地位。
AIGC 技术近年来迅速崛起,从生成式文本模型到视频生成技术,其应用范围不断扩大。而 VPP 的诞生标志着这一技术的应用迈向了具身智能机器人领域。VPP 的独特之处在于其利用了海量互联网视频数据进行训练,使得机器人能够在接收到简单指令后,实时预测未来场景并执行相应动作。例如,用户只需说出 “给我盛一碗热腾腾的鸡汤”,VPP 模型便能让机器人完成这一任务。
根据 ICML2025的统计,今年的 Spotlight 论文评选竞争激烈,投稿总数超过12000篇,而获奖论文仅占2.6%。VPP 通过将视频扩散模型的泛化能力引入机器人操作策略,创新性地解决了传统推理速度的瓶颈,实现了机器人实时预测和动作执行的能力,显著提升了策略的泛化性。
VPP 的学习框架分为两个阶段,首先利用视频扩散模型学习预测性视觉表征,然后通过 Video Former 和 DiT 扩散策略进行动作学习。这种方法使得机器人不仅能快速响应用户指令,还能在不同的人形机器人平台之间自如切换,极大降低了对高质量实机数据的依赖,推动了机器人技术的商业化进程。
在基准测试中,VPP 的表现也令人瞩目。在 Calvin ABC-D 基准测试中,其任务完成平均长度达到4.33,成功率显著高于现有技术,展现出其卓越的性能。此外,VPP 的多任务学习能力也在真实环境中得到了验证,能够完成100多种复杂的灵巧操作任务。
2025年5月7日,清华大学叉院的ISRLab与星动纪元联合发布了首个AIGC机器人大模型VPP(Video Prediction Policy)。这一模型是机器人技术领域的重大突破,已入选ICML2025 Spotlight。
模型特点
-
视频扩散模型泛化能力的应用:VPP将视频扩散模型的泛化能力转移到通用机器人操作策略中,解决了传统diffusion推理速度慢的问题,使机器人能够实时进行未来预测和动作执行。
-
利用互联网视频数据训练:该模型利用大量互联网视频数据进行训练,直接学习人类动作,减轻了对高质量机器人真机数据的依赖。
-
跨本体学习能力:VPP能够在不同人形机器人本体之间自如切换,降低了数据获取成本,加速了人形机器人的商业化落地。
-
高频预测与动作执行:VPP的预测频率可达6-10Hz,控制频率超过50Hz,极大提升了动作执行的流畅性。
-
优异的基准测试表现:在Calvin ABC-D基准测试中,VPP的任务完成平均长度达到4.33,真机测试成功率为67%,显著优于其他方法。
开源与应用前景
VPP现已全部开源,相关代码和项目信息可在GitHub上查看。这一开源举措将为具身智能机器人的发展提供强大的技术支持,推动机器人技术的商业化进程。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。