首页 > 快讯 > 小米发布首个机器人 VLA 大模型开源，成功解决“物理智能”延迟问题

小米发布首个机器人 VLA 大模型开源，成功解决“物理智能”延迟问题

发布时间：2026-02-12 14:36:27 | 责任编辑：吴昊 | 浏览量：67 次

具身智能（Embodied AI）领域今日迎来重磅进展。小米正式开源其首代机器人大模型 Xiaomi-Robotics-0。该模型拥有 47亿参数，旨在解决现有 VLA（视觉-语言-动作）模型由于推理延迟导致机器人动作迟缓的痛点，实现了在消费级显卡上的实时推理与高效泛化。
为了兼顾通用理解与高频控制，Xiaomi-Robotics-0采用了创新的 MoT（Mixture-of-Transformers）混合架构:
视觉语言大脑（VLM）: 作为底座，负责解析人类模糊指令并捕捉高清视觉中的空间关系。
动作执行小脑（Action Expert）: 嵌入多层 Diffusion Transformer （DiT），通过流匹配技术生成精准的“动作块（Action Chunk）”，确保物理执行的灵活性。
小米研发团队通过严谨的训练配方，平衡了模型的常识理解与体力操作能力:
跨模态预训练: 引入 Action Proposal 机制，使 VLM 在保持逻辑推理能力的同时，实现特征空间与动作空间的对齐。随后冻结 VLM，专项训练 DiT 以生成平滑的动作序列。
后训练（Post-training）: 针对真机运行的“动作断层”问题，采用异步推理模式。结合 Clean Action Prefix（确保轨迹连续）与 Λ-shape Attention Mask（强制关注当前视觉反馈），使机器人在面对环境突发变化时具备极强的响应敏捷性。
在测试中，Xiaomi-Robotics-0展现了统治级的性能:
仿真标杆: 在 LIBERO、CALVIN 和 SimplerEnv 三大主流仿真测试中，击败了30种对比模型，均取得当前最优成绩（SOTA）。
真机泛化: 在双臂机器人平台上，无论是拆解积木还是折叠柔性毛巾，模型均表现出极高的手眼协调性与物理泛化能力。
小米此次全面开放了技术资源，包括技术主页、开源代码以及在 Hugging Face 发布的模型权重，旨在通过社区力量共同推动具身智能的边界。

这是一篇关于小米开源首代机器人 VLA 大模型，突破“物理智能”延迟瓶颈的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： leading the way overseas! the MiniMAX M2.5 model is about to launch officially: international Agent’s secret beta test has already begun

下一篇： Seedance 2.0 隆重登场：融合多模态技术，5秒实现音画同步，助力专业级创作需求

小米发布首个机器人 VLA 大模型开源，成功解决“物理智能”延迟问题

最新Ai信息

最新Ai工具

热门AI推荐