首页 > 快讯 > AI取得进化里程碑！大模型首次展现接近人类的空间认知能力！

AI取得进化里程碑！大模型首次展现接近人类的空间认知能力！

发布时间：2025-06-23 10:35:01 | 责任编辑：张毅 | 浏览量：197 次

研究人员近日公布了一项惊人的进展:一个新的 AI 大模型成功掌握了人类的空间思考能力。这一突破源于蚂蚁技术研究院自然语言组与中科院自动化所和香港中文大学的合作，推出了名为 ViLaSR-7B 的模型，专注于空间推理任务。
这个模型通过一种名为 “边看边画” 的训练方法，能够在理解图像的同时进行空间推理，从而在迷宫导航、静态图像理解和视频分析等多个任务上平均提高了18.4% 的准确率。更令人振奋的是，ViLaSR-7B 在著名的 VSI-Bench 测试中，达到了45.4% 的高分，成功超越了当前最先进的方法。
ViLaSR-7B 的成功不仅是技术上的进步，更是向实现真正的视觉智能迈出了一大步。研究团队为模型设计了三阶段训练框架，以系统化地培养其空间推理能力。第一阶段，模型通过冷启动训练建立基础视觉能力;第二阶段，通过反思拒绝采样，模型学习到自我修正的能力;第三阶段，采用强化学习，进一步优化其推理效果。
传统的视觉语言模型主要通过 “视觉转文本” 的方式处理图像信息，但这一方法在许多场景中表现出局限性，如在复杂的迷宫中容易失去方向。相比之下，ViLaSR-7B 的 “边看边画” 方式，让模型能够更灵活地捕捉空间关系，通过交互式绘图来辅助思考。这种创新性的思维模式模拟了人类在解决空间问题时的过程，提升了模型的理解深度和推理效果。
ViLaSR-7B 的推出不仅展示了人工智能在视觉推理领域的潜力，还为未来的智能应用提供了新的方向。

AI进化确实迎来了新的里程碑，大模型在空间思维能力上取得了显著进展，但目前尚未完全具备与人类相当的空间思维能力。以下是相关介绍：

空间思维能力的突破

“Drawing to Reason in Space”范式：有研究团队提出了“Drawing to Reason in Space”范式，通过三阶段训练框架，让大模型能够像人类一样“边画边想”，从而提升空间思维能力，其在5个基准上的平均性能提升了18.4%。
多模态大模型的探索：李飞飞、谢赛宁团队的研究发现，多模态大语言模型能够记住和回忆空间，甚至内部已经形成了局部世界模型和空间意识的迹象。他们设计了超5000个问答对，全面评估了15种支持视频的多模态大语言模型，结果显示这些模型在配置型和时空任务上表现不错，但在需要精确估计绝对距离/大小的测量任务上与人类仍存在差距。
像素空间推理范式：来自滑铁卢大学、港科大、中科大的研究团队提出了“像素空间推理”范式，首次将推理战场从文本空间拓展到像素空间，让视觉语言模型能像人类一样“眼脑并用”，在像素级精度上解锁视觉理解的新维度。

空间思维能力的应用前景

人形机器人：人形机器人的发展离不开空间思维能力的支持。AI大模型的空间思维能力提升，将使人形机器人能够更好地理解周围环境，从而更准确地执行动作，更好地满足人类的需求。
视频生成：像Sora这样的视频生成模型，其对物理世界的空间模拟能力达到了逼近真实的水平，这在视频内容创作等领域具有巨大的应用潜力。
自动驾驶：世界模型可以帮助自动驾驶系统根据历史经验预测其他车辆和行人的行为，并在特定情况下提前调整行车策略，极大提高行驶安全性与效率。

仍面临的挑战

尽管大模型在空间思维能力上取得了进展，但与人类相比仍存在差距。例如，在一些需要精确空间推理的任务上，如绝对距离估计、路径规划和相对方向等，大模型的表现难以超越随机水平。此外，大模型在处理空间信息时，倾向于构建局部世界模型，而不是完整的全局空间理解。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。