小米发布首个机器人 VLA 大模型开源,成功解决“物理智能”延迟问题
发布时间:2026-02-12 14:36:27 | 责任编辑:吴昊 | 浏览量:3 次
具身智能(Embodied AI)领域今日迎来重磅进展。小米正式开源其首代机器人大模型 Xiaomi-Robotics-0。该模型拥有 47亿参数,旨在解决现有 VLA(视觉-语言-动作)模型由于推理延迟导致机器人动作迟缓的痛点,实现了在消费级显卡上的实时推理与高效泛化。
为了兼顾通用理解与高频控制,Xiaomi-Robotics-0采用了创新的 MoT(Mixture-of-Transformers)混合架构:
视觉语言大脑(VLM): 作为底座,负责解析人类模糊指令并捕捉高清视觉中的空间关系。
动作执行小脑(Action Expert): 嵌入多层 Diffusion Transformer (DiT),通过流匹配技术生成精准的“动作块(Action Chunk)”,确保物理执行的灵活性。
小米研发团队通过严谨的训练配方,平衡了模型的常识理解与体力操作能力:
跨模态预训练: 引入 Action Proposal 机制,使 VLM 在保持逻辑推理能力的同时,实现特征空间与动作空间的对齐。随后冻结 VLM,专项训练 DiT 以生成平滑的动作序列。
后训练(Post-training): 针对真机运行的“动作断层”问题,采用异步推理模式。结合 Clean Action Prefix(确保轨迹连续)与 Λ-shape Attention Mask(强制关注当前视觉反馈),使机器人在面对环境突发变化时具备极强的响应敏捷性。
在测试中,Xiaomi-Robotics-0展现了统治级的性能:
仿真标杆: 在 LIBERO、CALVIN 和 SimplerEnv 三大主流仿真测试中,击败了30种对比模型,均取得当前最优成绩(SOTA)。
真机泛化: 在双臂机器人平台上,无论是拆解积木还是折叠柔性毛巾,模型均表现出极高的手眼协调性与物理泛化能力。
小米此次全面开放了技术资源,包括 技术主页、开源代码 以及在 Hugging Face 发布的 模型权重,旨在通过社区力量共同推动具身智能的边界。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
