首页 > 快讯 > 苹果研究揭秘AI“伪装思维”实情:复杂任务中推理模型出现故障

苹果研究揭秘AI“伪装思维”实情:复杂任务中推理模型出现故障

发布时间:2025-06-09 09:40:53 | 责任编辑:吴昊 | 浏览量:4 次

一项由苹果研究人员主导的新研究,对当前被寄予厚望的大型推理模型(LRM)泼了一盆冷水。
研究发现,在解决复杂任务时,像 Claude3.7Thinking 和 Deepseek-R1等专为“模拟思维过程”设计的推理模型,不仅未能展现出优势,反而出现“思考不足”、性能崩溃等严重问题。
这项研究测试了四种经典逻辑谜题:汉诺塔、跳棋、渡河与积木世界。这些谜题允许精确控制任务复杂度,是衡量语言模型推理能力的理想场景。结果显示,标准 LLM 在简单任务中准确率更高且效率更高,而当复杂度升高,推理模型虽表现稍有提升,但最终同样在高复杂度下全面崩溃。
更令人意外的是,这些模型在面对最复杂任务时,不仅准确率下降为零,反而使用了更少的推理标记(tokens)。换句话说,它们“思考”的意愿和能力反而降低了。
研究团队绘制了模型在不同复杂度下的推理轨迹,揭示了两种典型失败模式:过度思考:在简单问题中,模型找到答案后仍持续生成错误备选方案;思考崩溃:在高复杂度问题中,推理过程戛然而止,连尝试路径都无法生成。
虽然推理模型借助“思路链”“自我反思”等机制被认为是通往通用人工智能(AGI)的一步,但苹果的研究指出:这些机制在扩展性上存在根本缺陷,目前的推理模型无法制定出具备通用性的策略,其“思考”更多是统计上的生成,而非真正的逻辑演绎。
研究还发现,不同谜题的表现也与训练数据相关。例如,出现在训练数据中较多的“汉诺塔”任务,其准确率普遍高于复杂度相似但数据稀少的“渡河”任务。这凸显了当前模型对训练分布的高度依赖性。
苹果研究人员最终指出:“当前推理模型的‘思维能力’存在与问题复杂度相对的不对称扩展性,在结构上无法支撑高阶任务的解决。”他们建议,对推理模型的核心设计原则应进行重新思考。
这一发现对行业影响深远。随着 AI 模型规模扩展收益趋于饱和,推理能力被视为通向下一阶段 AI 革命的关键,包括 OpenAI 在内的多家头部企业均在此方向押下重注。如今,这项研究提醒人们:在走向真正“理解”和“推理”的路上,AI 仍面临根本性的技术挑战。

苹果研究揭秘AI“伪装思维”实情:复杂任务中推理模型出现故障

苹果公司最近发表了一篇名为《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》的研究论文,对当前人工智能(AI)推理模型的“思考”能力提出了质疑。

研究背景

当前的AI模型在推理能力评估中主要依赖于数学和编程基准测试,这些测试虽然可以衡量模型的最终答案准确性,但存在数据污染问题,且无法揭示模型内部推理轨迹的质量。苹果的研究团队认为,现有的评估方式忽略了模型在复杂任务下的表现,因此设计了一系列可控的逻辑谜题(如汉诺塔、过河问题、积木世界等)来测试模型的推理能力。

研究发现

苹果的研究揭示了AI推理模型在不同复杂度任务下的表现差异:

  1. 低复杂度任务:标准语言模型(不使用推理技术)的表现优于专门的推理模型。

  2. 中等复杂度任务:推理模型通过明确展示中间步骤,表现出了优势。

  3. 高复杂度任务:所有模型的性能急剧下降,准确率几乎为零,推理模型甚至减少了“思考”努力。

此外,即使在被提供了明确的解题算法时,推理模型在高复杂度任务下仍然会失败,这表明它们无法可靠地执行明确的逻辑过程。

研究意义

苹果的研究结果对AI的发展方向提出了重要启示:

  • 当前的AI模型并非真正“思考”,而是依赖于模式匹配和记忆。

  • 仅靠增加参数、token或训练数据无法实现通用人工智能(AGI),需要探索新的推理机制。

  • 混合系统(结合神经网络与符号推理等技术)可能是未来的发展方向。

社会反响

该研究引发了广泛讨论。一方面,有人认为苹果的研究否定了现有的推理模型;另一方面,也有观点认为这是对更好推理机制和评估方法的呼吁。

总之,苹果的研究揭示了当前AI推理模型在复杂任务下的局限性,为未来AI的发展提供了重要的参考。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复