首页 > 快讯 > 顶级大模型视觉推理遭遇挑战：硅基“视力”难比幼童？

顶级大模型视觉推理遭遇挑战：硅基“视力”难比幼童？

发布时间：2026-01-23 16:50:37 | 责任编辑：张毅 | 浏览量：110 次

在人工智能屡屡斩获各类博士级竞赛桂冠的今天，我们似乎默认了这些数字大脑已经全方位超越人类。然而，一项由 UniPat AI、xbench、阿里、月之暗面以及阶跃星辰等多家顶尖机构联合发布的最新研究，却给这种乐观情绪泼了一盆冷水。研究结果令人咋舌：即便是在这一赛道领跑的 Gemini 3 Pro Preview，其视觉推理能力也仅仅是小胜三岁幼儿，而面对六岁儿童的认知水平，它依然存在 20% 的能力断层。
这场被称为 BabyVision 的视觉推理“闭卷考试”，彻底暴露了大模型在物理世界感知上的短板。当人类幼儿能够轻而易举地完成“找不同”或空间拼图时，那些在数学难题面前谈笑风生的 AI 巨头们却纷纷翻车。
为什么坐拥万亿参数的大模型，会卡在如此基础的视觉任务上？研究发现，症结在于大模型至今仍是一个“语言动物”。它们在处理视觉信息时，习惯于先将图像翻译成文字描述，再进行逻辑推演。这种“曲线救国”的方式在处理宏观概念时尚能应付，但在面对那些无法用言语精准捕捉的视觉特征——比如微小的曲线偏移、复杂的几何交叉点或是细腻的空间遮挡关系时，信息便在翻译过程中大量丢失。
研究团队通过 BabyVision 基准，将大模型的视觉缺陷归纳为四大维度：
非言语精细细节缺失：大模型往往无法分辨像素级的几何差异，在拼图匹配中常因为无法“想象”形状的旋转对齐而选错答案。
流形一致性丢失：在长距离连线或轨迹追踪任务中，大模型就像在迷宫中迷路的孩子，一旦遇到路径交叉，极易“走岔”并丢失原有的感知线索。
空间想象力匮乏：文字叙述无法忠实还原三维空间，大模型在推断积木的侧视图或隐藏体积时，频繁出现数错层数或投影错误的尴尬。
视觉模式归纳障碍：它们倾向于死板地“数属性”而非理解变化规律，难以从少量视觉示例中抽象出深层的因果逻辑。
这一结论无疑让当前火热的“具身智能”赛道倍感压力。如果一个 AI 甚至无法像六岁孩子一样准确识别身边的物理环境，我们又该如何指望它在真实的物理世界中安全地协助人类？
针对这一瓶颈，研究者提出了两条进化路径：一是引入强化学习（RLVR），通过显式的中间推理来对冲感知的不确定性；二是彻底拥抱原生多模态推理，让模型学会像 Sora 2 那样在像素空间内直接进行“视觉演算”，而非借道语言。
AI 进化史上的这一场“返祖”研究提醒我们，通往通用人工智能（AGI）的道路，或许并不在更高难度的数学题里，而在那些六岁孩子就能轻松玩转的拼图游戏中。