Genie Envisioner:智元机器人推出全新开源平台,引领机器人世界模型发展
发布时间:2025-08-14 17:31:22 | 责任编辑:吴昊 | 浏览量:8 次
智元机器人在上海宣布推出面向真实世界机器人操控的统一世界模型平台——Genie Envisioner(GE)。这一创新平台突破了传统机器人学习系统分阶段开发的模式,将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构,实现了机器人从“看”到“想”再到“动”的端到端推理与执行。基于约3000小时的真实机器人操控视频数据,GE在跨平台泛化和长时序任务执行上展现出显著优势,为具身智能发展开辟了从视觉理解到动作执行的全新技术路径。
GE的核心突破在于构建了基于世界模型的视觉中心建模范式。与主流的视觉-语言-行动(VLA)方法不同,GE直接在视觉空间中建模机器人与环境的交互动态,完整保留了操控过程中的空间结构和时序演化信息。这种建模范式不仅赋予了GE高效的跨本体泛化能力,使其能够在极少量数据下实现跨平台迁移,还在长时序任务的精确执行能力上展现出巨大优势。例如,在折叠纸盒等超长步骤任务中,GE-Act的成功率远超现有顶尖方法。
GE平台由三个紧密集成的组件构成:GE-Base、GE-Act和GE-Sim。GE-Base是整个平台的核心基础,采用自回归视频生成框架,具备多视角生成能力和稀疏记忆机制,能够处理来自多路视角输入的操控场景,并通过随机采样历史帧增强长时序推理能力。GE-Act作为即插即用的动作模块,通过轻量级架构将视觉潜在表征转换为可执行的机器人控制指令,并采用异步推理模式实现高效实时控制。GE-Sim则将GE-Base的生成能力扩展为动作条件的神经仿真器,通过层次化动作条件机制实现精确的视觉预测,支持闭环策略评估,并可作为数据引擎生成多样化的训练数据。
此外,智元机器人团队还开发了EWMBench评测套件,用于评估面向具身任务的世界模型质量。在与多个先进模型的对比中,GE-Base在多项关键指标上均取得最优成绩,且与人类判断高度一致。智元机器人计划开源GE的全部代码、预训练模型和评测工具,推动机器人从被动执行向主动“想象—验证—行动”的转变。未来,GE将扩展更多传感器模态,支持全身移动与人机协作,持续推动智能制造与服务机器人的落地应用。
🔹 Project page
https://genie-envisioner.github.io/
🔹 Arxiv
https://arxiv.org/abs/2508.05635
🔹Github
https://github.com/AgibotTech/Genie-Envisioner
2025年8月14日,智元机器人正式发布了全球首个面向真实世界机器人操控的统一世界模型开源平台——Genie Envisioner(GE)。
平台核心创新:
-
闭环架构设计:与传统机器人开发中“数据收集—模型训练—策略评估”相互割裂的流水线模式不同,GE首次将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构,使机器人能在同一世界模型中完成从“看”(感知)到“想”(决策)再到“动”(执行)的端到端推理与动作执行。
-
视觉中心的世界建模范式:不同于主流的VLA(Vision-Language-Action)方法,GE直接在视觉空间中建模机器人与环境的交互动态,完整保留了操控过程中的空间结构和时序演化信息,实现了更精确、直接的建模。
-
高效跨平台泛化能力:基于约3000小时真实机器人操控视频数据训练,GE-Act在跨平台泛化与长时序任务执行上显著超越现有SOTA(State-of-the-Art)模型。
平台核心组件:
组件名称 | 功能描述 |
---|---|
GE-Base | 基于百万级真实机器人视频数据训练的视频扩散模型,负责环境感知与空间布局解析。 |
GE-Act | 动作解码器,实现从视觉感知到具体动作指令的转化,支持复杂任务执行(如制作三明治、倒茶、擦拭桌面等)。 |
GE-Sim | 基于动作条件的神经仿真器,提供精准视觉预测与策略评估能力。 |
开源与评测工具:
-
全面开源:智元机器人宣布开源GE平台的全部代码、预训练模型与评测工具,推动全球机器人研究社区的协同创新。
-
EWMBench评测套件:为具身任务世界模型质量评估提供了标准化工具,涵盖场景一致性、轨迹精度、运动动力学与语义对齐等多维度指标。
行业影响与未来展望:
-
技术路径革新:GE平台的发布标志着机器人从被动执行向主动“想象—验证—行动”的智能转变,为具身智能的发展提供了全新技术路径。
-
广泛应用前景:未来GE平台将扩展更多传感器模态,支持全身移动与人机协作,持续推动智能制造与服务机器人的广泛落地。
项目链接:
-
项目主页:Genie Envisioner
-
论文地址:ArXiv论文
-
开源代码:GitHub仓库
综上所述,智元机器人此次发布的Genie Envisioner平台,通过创新的闭环架构与视觉中心的建模范式,显著提升了机器人在真实世界中的泛化能力与任务执行效率,并开源共享,推动全球机器人技术与具身智能的快速发展。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。