新型AI物理理解模型 Cosmos-Reason1 的问世,由英伟达引领
发布时间:2025-05-21 15:35:22 | 责任编辑:吴昊 | 浏览量:80 次
近日,英伟达发布了其最新的 Cosmos-Reason1系列模型,旨在提升人工智能在物理常识和具身推理方面的能力。随着人工智能在语言处理、数学及代码生成等领域取得显著进展,如何将这些能力扩展到物理环境中成为了一大挑战。
物理 AI(Physical AI)不同于传统的人工智能,它依赖于视频等感官输入,并结合现实物理法则来生成反应。物理 AI 的应用领域包括机器人和自动驾驶车辆等,需要具备常识推理能力和对空间、时间及物理规律的深入理解。
然而,现有的 AI 模型在与物理世界的连接上依然存在弱点,无法直观理解重力或空间关系,这使得其在具身任务中的表现不佳。直接在物理世界中进行训练的成本高昂且风险巨大,这在一定程度上阻碍了物理 AI 的发展。
为了解决这些问题,英伟达的 Cosmos-Reason1模型提出了创新的解决方案。该系列模型包括 Cosmos-Reason1-7B 和 Cosmos-Reason1-56B 两个版本,采用了物理 AI 监督微调和强化学习两大训练阶段。
研究团队引入了双本体系统,一个分层本体将物理常识分为空间、时间和基础物理三大类,另一个本体则映射人类、机械臂和人形机器人等具身代理的推理能力。
模型架构采用了仅解码器的大型语言模型,结合视觉编码器以处理视频数据,从而实现文本和视觉数据的同步推理。为此,团队构建了针对物理常识的三个基准测试,涵盖604个问题和426个视频,以及针对具身推理的六个基准,包含610个问题和600个视频。
经过训练,Cosmos-Reason1模型在物理常识和具身推理基准测试中表现出色,特别是在强化学习训练后,在预测下一步行动、验证任务完成及评估物理可行性等方面取得了显著进展。
随着 Cosmos-Reason1系列模型的推出,英伟达为物理推理任务提供了新的解决方案,未来在机器人和自动驾驶领域的应用潜力可期。
划重点:
🌟 英伟达发布 Cosmos-Reason1系列模型,提升 AI 在物理推理中的能力。
🤖 该模型采用双本体系统,通过视频和文本数据进行同步推理。
📈 在基准测试中,Cosmos-Reason1模型在物理常识和具身推理方面表现优异。
GitHub
英伟达推出的新型模型 Cosmos-Reason1 是一套专门用于理解物理世界的多模态大语言模型,旨在通过长链思维推理过程,让 AI 更好地理解物理世界并生成适当的具体决策。以下是该模型的详细介绍:
核心能力
- 物理常识:通过一个层次化的本体来表示,涵盖空间、时间和基础物理等基础知识,使模型能够理解物理世界的基本规律。
- 具身推理:依赖一个二维本体,可泛化不同的物理具身,如人类、机械臂、人形机器人和自动驾驶车辆等,让模型能够处理复杂感官输入、预测行动效果并遵守物理约束进行规划。
技术架构
- 视觉编码器:采用 InternViT-300M-V2.5 视觉编码器处理图像和视频。
- 双层 MLP 投影器:对齐视觉与文本特征。
- 混合 Mamba-MLP-Transformer 主干网络:结合 Mamba 的序列建模优势和 Transformer 的长上下文处理能力。
- 模型规模:提供 Cosmos-Reason1-8B 和 Cosmos-Reason1-56B 两种参数规模。
训练过程
- 视觉预训练:建立多模态基础。
- 通用监督微调(SFT):构建核心能力。
- 物理 AI 专项微调(SFT):提升领域表现。
- 物理 AI 强化学习(RL):进一步优化模型,使其更贴合物理世界的逻辑。
数据与评估
- 数据集:研究人员策划了包含约 400 万对标注视频-文本对的庞大训练数据集,涵盖动作描述、多项选择题和长链思维推理痕迹。
- 评估基准:构建了物理常识和具身推理的综合基准,包含空间、时间和基础物理等领域的 604 个问题,以及具身推理领域的 610 个问题。
- 评估结果:经过专项优化的模型在物理常识和具身推理任务上表现显著提升,强化学习阶段使平均性能再提升 8.2%。
应用前景
Cosmos-Reason1 可以增强现有的世界基础模型,使物理 AI 数据注释和管理更加高效和准确。此外,它还可以进行后期训练,成为能够指导如何完成复杂任务的物理 AI 高级规划器。该模型在机器人、自动驾驶等需要物理交互的 AI 应用领域具有广阔的应用前景。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
上一篇: ai智能教学系统好吗?
下一篇: ai智能是什么原理?