首页 > 快讯 > 苹果再次吹捧AI推理能力，GitHub专家猛烈回应：这并非推理能力的真实反映！

苹果再次吹捧AI推理能力，GitHub专家猛烈回应：这并非推理能力的真实反映！

发布时间：2025-06-10 17:08:24 | 责任编辑：张毅 | 浏览量：75 次

最近，苹果公司发布了一篇引发热议的论文，指出当前的大语言模型（LLM）在推理方面存在重大缺陷。这一观点迅速在社交媒体上引起热议，尤其是 GitHub 的高级软件工程师 Sean Goedecke 对此提出了强烈反对。他认为，苹果的结论过于片面，并不能全面反映推理模型的能力。
苹果的论文指出，在解决数学和编程等基准测试时，LLM 的表现并不可靠。苹果研究团队采用了汉诺塔这一经典的人工谜题，分析了推理模型在不同复杂度下的表现。研究发现，模型在面对简单谜题时表现较好，而在复杂度较高的任务中，推理模型往往选择放弃，不再继续推理。
例如，在处理十盘汉诺塔问题时，模型会觉得手动列出每一步几乎不可能，因此选择寻找 “捷径”，但最终却未能得出正确答案。这一发现表明，推理模型在某些情况下并非没有能力，而是意识到问题过于复杂而选择放弃。
不过，Sean Goedecke 对此表示质疑，他认为汉诺塔并不是测试推理能力的最佳例子，模型的复杂性阈值也可能并非固定。此外，他还提到，推理模型的设计初衷是为了处理推理任务，而不是执行数千次重复性步骤。用汉诺塔测试推理能力，就像在说:“如果某个模型不能写出复杂的诗歌，那它就不具备语言能力”，这并不公平。
虽然苹果的研究揭示了 LLM 在推理方面的一些局限，但这并不意味着这些模型完全没有推理能力。真正的挑战在于如何更好地设计和评估这些模型，以发掘它们的潜力。

最近，苹果公司发表了一篇预印本论文，指出大型语言模型（LLM）在推理能力上存在重大缺陷。然而，这一观点引发了GitHub上一些高级软件工程师的反驳，其中GitHub高级工程师Sean Goedecke对该论文持保留态度。

苹果的主张

苹果的论文指出，在数学和编程基准测试中，大家不应过度关注推理模型的表现，因为这些表现并不能完全反映模型的真实推理能力。苹果认为，推理模型在面对复杂任务时可能会表现出能力不足，例如在使用DeepSeek-V3进行测试时，模型拒绝执行上千步的谜题推演，这被苹果视为推理能力的崩溃。

GitHub大佬的反驳

GitHub高级工程师Sean Goedecke认为，苹果的这种解读并不准确。他指出，模型拒绝执行复杂任务并非推理能力的崩溃，反而说明模型具备对自身能力边界的认知。换句话说，模型能够识别出任务超出了其能力范围，这本身就是一种“智能”的表现。

此外，Goedecke还提到，苹果的论文和解读在社交媒体上引发了广泛争议，许多网友认为论文的结论过于绝对。他认为，语言模型虽然不是通往超级智能（ASI）的理想路径，但也不应被完全否定。

争议的核心

这场争议的核心在于如何定义和衡量AI的推理能力。苹果强调在复杂任务中模型的表现不佳，而GitHub的工程师则认为，模型对自身能力边界的认知也是一种重要的推理能力。这种分歧反映了AI领域中对于模型能力评价标准的不同理解。

总结

苹果对LLM推理能力的批评引发了广泛关注和争议，而GitHub上一些工程师的反驳则进一步凸显了AI领域中对于推理能力评价标准的复杂性。这场争议不仅涉及技术层面的讨论，也反映了人们对AI未来发展的不同预期和担忧。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。