腾讯推出HY-Embodied-0.5具身模型,在22项评估中16项领先,创行业新高
发布时间:2026-04-10 16:24:44 | 责任编辑:张毅 | 浏览量:4 次
近日,腾讯 Robotics X 实验室联合腾讯混元团队正式推出专为具身智能打造的基础模型 HY-Embodied-0.5。此举旨在解决通用视觉语言模型(VLM)因缺乏精细三维空间感知与物理交互能力,难以落地物理世界的行业痛点,标志着大模型认知链路正实质性延伸至机器人控制领域。
该系列模型并非通用基座的简单微调,而是从架构到训练范式的彻底重构。团队同步推出两款主力模型:MoT-2B(总参4B,激活2B)主打端侧实时响应,MoE-32B(总参407B,激活32B)追求极致推理性能。
技术上,团队首创视觉与语言模态非共享参数的混合 Transformer(MoT)架构,配合原生分辨率视觉编码器 HY-ViT2.0与视觉潜在 Token 机制,有效避免了小模型在多模态训练中的灾难性遗忘。训练层面,依托超1亿条高质量具身专属数据,结合拒绝采样微调、强化学习与在线蒸馏等多阶段后训练策略,驱动模型思维链自主进化。
性能验证显示,MoT-2B 在涵盖感知、推理、规划的22项权威评测中斩获16项最佳,超越 Qwen3-VL-4B 及 RoboBrain2.5等同参数竞品;旗舰版 MoE-A32B 综合成绩亦能与 Gemini3.0Pro 等国际标杆抗衡。
实机测试中,搭载该基座的机器人在打包、堆叠等任务上表现优于主流基线模型。这一进展为具身智能从虚拟仿真走向物理实操提供了高性能的底层基座支撑。
这是一篇关于腾讯发布 HY-Embodied-0.5具身模型,22项评测16项最佳刷新行业纪录的文章,内容值得关注。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
