首页 > 快讯 > 顶级大模型视觉推理遭遇挑战:硅基“视力”难比幼童?

顶级大模型视觉推理遭遇挑战:硅基“视力”难比幼童?

发布时间:2026-01-23 16:50:37 | 责任编辑:张毅 | 浏览量:76 次

在人工智能屡屡斩获各类博士级竞赛桂冠的今天,我们似乎默认了这些数字大脑已经全方位超越人类。然而,一项由 UniPat AI、xbench、阿里、月之暗面以及阶跃星辰等多家顶尖机构联合发布的最新研究,却给这种乐观情绪泼了一盆冷水。研究结果令人咋舌:即便是在这一赛道领跑的 Gemini 3 Pro Preview,其视觉推理能力也仅仅是小胜三岁幼儿,而面对六岁儿童的认知水平,它依然存在 20% 的能力断层。
这场被称为 BabyVision 的视觉推理“闭卷考试”,彻底暴露了大模型在物理世界感知上的短板。当人类幼儿能够轻而易举地完成“找不同”或空间拼图时,那些在数学难题面前谈笑风生的 AI 巨头们却纷纷翻车。
为什么坐拥万亿参数的大模型,会卡在如此基础的视觉任务上?研究发现,症结在于大模型至今仍是一个“语言动物”。它们在处理视觉信息时,习惯于先将图像翻译成文字描述,再进行逻辑推演。这种“曲线救国”的方式在处理宏观概念时尚能应付,但在面对那些无法用言语精准捕捉的视觉特征——比如微小的曲线偏移、复杂的几何交叉点或是细腻的空间遮挡关系时,信息便在翻译过程中大量丢失。
研究团队通过 BabyVision 基准,将大模型的视觉缺陷归纳为四大维度:
非言语精细细节缺失:大模型往往无法分辨像素级的几何差异,在拼图匹配中常因为无法“想象”形状的旋转对齐而选错答案。
流形一致性丢失:在长距离连线或轨迹追踪任务中,大模型就像在迷宫中迷路的孩子,一旦遇到路径交叉,极易“走岔”并丢失原有的感知线索。
空间想象力匮乏:文字叙述无法忠实还原三维空间,大模型在推断积木的侧视图或隐藏体积时,频繁出现数错层数或投影错误的尴尬。
视觉模式归纳障碍:它们倾向于死板地“数属性”而非理解变化规律,难以从少量视觉示例中抽象出深层的因果逻辑。
这一结论无疑让当前火热的“具身智能”赛道倍感压力。如果一个 AI 甚至无法像六岁孩子一样准确识别身边的物理环境,我们又该如何指望它在真实的物理世界中安全地协助人类?
针对这一瓶颈,研究者提出了两条进化路径:一是引入强化学习(RLVR),通过显式的中间推理来对冲感知的不确定性;二是彻底拥抱原生多模态推理,让模型学会像 Sora 2 那样在像素空间内直接进行“视觉演算”,而非借道语言。
AI 进化史上的这一场“返祖”研究提醒我们,通往通用人工智能(AGI)的道路,或许并不在更高难度的数学题里,而在那些六岁孩子就能轻松玩转的拼图游戏中。

顶级大模型视觉推理遭遇挑战:硅基“视力”难比幼童?

这是一篇关于硅基生物的“视力瓶颈”:顶级大模型视觉推理竟难敌 6 岁孩童?的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐