全新 Cosmos Reason 模型问世,英伟达助力推进机器人及物理 AI 进程
发布时间:2025-08-12 11:00:16 | 责任编辑:吴昊 | 浏览量:8 次
英伟达周一在 SIGGRAPH 大会上发布了一系列面向机器人开发者的全新世界 AI 模型、库及基础设施,其中最引人关注的是参数规模达70亿的“推理型”视觉语言模型 Cosmos Reason,专为物理 AI 应用与机器人设计。
此次加入现有 Cosmos 系列的还包括 Cosmos Transfer-2,可基于3D 模拟场景或空间控制输入加速生成合成数据,以及一款更强调速度优化的精简版 Cosmos Transfer。英伟达表示,这些模型可用于生成训练机器人和 AI 智能体所需的合成文本、图像和视频数据集。
据介绍,Cosmos Reason 具备记忆与物理理解能力,能够作为规划模型推断实体智能体的下一步行动,应用场景包括数据筛选、机器人规划与视频分析。
英伟达还发布了新的神经重建库,其中包含一种利用传感器数据将现实世界以3D 方式模拟的渲染技术。该技术也将被整合进开源模拟器 CARLA 这一广受开发者欢迎的平台。此外,Omniverse 软件开发套件也迎来了更新。
在硬件与平台方面,公司推出了适配机器人开发工作流的全新服务器——Nvidia RTX Pro Blackwell Server,提供统一架构支持;以及基于云端的管理平台 Nvidia DGX Cloud。
这一系列发布,显示出英伟达正加速布局机器人领域,力求在 AI 数据中心之外,为其 AI GPU 寻找下一个重大应用场景。
英伟达在SIGGRAPH 2025大会上发布了全新的 Cosmos Reason 模型,这是其 Cosmos 世界基础模型(WFM) 系列中的最新推理视觉语言模型(VLM),专为 物理 AI 和机器人 设计。Cosmos Reason 是一个 7B 参数 的开放、可完全定制的多模态大模型,具备 时空感知和物理推理能力,能够通过思维链(Chain-of-Thought)推理,理解视频和图像中的物理世界,并生成逻辑决策。
核心功能
-
物理世界理解:Cosmos Reason 使用结构化推理,结合物理常识和空间时间理解,帮助机器人和 AI 代理像人类一样理解物理世界。
-
机器人决策与规划:可作为机器人视觉语言动作(VLA)模型的“大脑”,使机器人能够分解复杂任务并执行,即使在陌生环境中也能基于常识做出合理决策。
-
数据管理与标注:自动化高质量训练数据的筛选、批判和标注,加速机器人和自动驾驶汽车的训练。
-
视频分析 AI 代理:用于城市、工业运营等场景的视频搜索和总结,提取洞见和进行根因分析。
模型训练与优化
Cosmos Reason 通过 物理 AI 监督微调(SFT) 和 强化学习(RL) 进行训练,以桥接多模态感知与真实世界决策,提升在物理 AI 任务中的表现。
可用性与部署
-
开放获取:Cosmos Reason 模型(包括 7B 和 56B 参数版本)已开源,可在 NGC、Hugging Face、GitHub 等平台获取。
-
企业级部署:阿里云 PAI 等平台已集成 Cosmos Reason-1-7B 模型,提供企业级部署方案。
此次发布进一步扩展了 NVIDIA Cosmos 平台的能力,通过 Cosmos Reason 加速机器人和物理 AI 的发展。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。