首页 > 快讯 > 摆脱“静态”桎梏：3D-R1新型3D视觉语言模型怎样令推理效能普遍增长10%？

摆脱“静态”桎梏：3D-R1新型3D视觉语言模型怎样令推理效能普遍增长10%？

发布时间：2025-08-05 10:52:55 | 责任编辑：张毅 | 浏览量：84 次

在人工智能领域，视觉语言模型（VLM）近年来取得了显著进展，尤其是在二维视觉理解方面。随着这一领域的不断发展，研究人员们开始将目光投向3D 场景理解。然而，由于高质量空间数据的稀缺和静态视角假设的限制，现有的3D VLM 往往难以进行有效的推理和泛化。为了解决这些挑战，研究团队近日发布了名为3D-R1的新型基础模型。
3D-R1的核心创新在于通过高质量的合成数据集、强化学习以及动态视图选择的引入，显著提升了3D 场景理解的推理能力和泛化能力。研究人员利用现有的3D-VL 数据集及基于 Gemini2.5Pro 的数据引擎，构建了一个名为 Scene-30K 的高质量合成数据集。这一数据集为3D-R1提供了强有力的冷启动初始化数据。
在强化学习的训练过程中，3D-R1引入了多种奖励函数，包括感知奖励、语义相似性奖励和格式奖励，旨在提升模型的推理能力，同时确保检测的准确性和答案的语义精度。此外，3D-R1采用了一种动态视图选择策略，能够自适应选择对3D 场景理解最有参考价值的视角。
通过一系列实验，3D-R1在多项3D 场景基准测试中平均提升了10%，证明了其在增强3D 场景理解推理和泛化能力方面的有效性。研究团队表示，3D-R1的发布标志着3D 视觉语言模型研究的一个重要里程碑，为未来的相关研究和应用奠定了坚实的基础。

3D-R1通过以下方法告别“静态”限制，显著提升3D视觉语言模型（3D VLM）的推理能力，使其在多个三维场景理解基准测试中平均提升10%：首先，利用现有3D-VL数据集和基于Gemini 2.5 Pro的数据引擎构建了高质量合成数据集Scene-30K（含思维链CoT标注），作为3D-R1的冷启动初始化数据；其次，在强化学习训练过程中采用类似GRPO的强化学习人类反馈（RLHF）策略，并通过感知奖励、语义相似性奖励和格式奖励三种奖励函数保障检测精度与答案语义准确性；此外，还引入了动态视角选择策略，自适应选取最具信息量的观察视角以提升三维场景理解效果。这些创新方法使3D-R1有效克服了高质量空间数据匮乏和视角静态假设带来的挑战，显著增强了3D VLM的推理与泛化能力。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。