首页 > 快讯 > 揭开 AI 推理之谜：OpenAI 通过代码与数据革新人类智慧

揭开 AI 推理之谜：OpenAI 通过代码与数据革新人类智慧

发布时间：2025-08-04 09:38:38 | 责任编辑：吴昊 | 浏览量：301 次

2022年，当 ChatGPT 席卷全球时，OpenAI 内部一个名为 MathGen 的小团队正默默致力于一项更为基础的研究:教 AI 模型进行数学推理。如今，这项工作已成为 OpenAI 打造 AI 智能体（Agent）的核心技术，并引发了硅谷的人才争夺战。本文将深入解析 OpenAI 的 AI 智能体之路，探寻其如何通过强化学习和计算突破，从一个低调的研究项目走向通用智能体的宏伟蓝图。
2022年，在 ChatGPT 凭借其强大的语言能力迅速走红、成为史上增长最快的产品之一时，研究员亨特·莱特曼（Hunter Lightman）正专注于一项截然不同的任务:领导一个名为 MathGen 的团队，教 OpenAI 的模型解决高中数学竞赛难题。
当时，OpenAI 的模型在数学推理方面表现欠佳。但正是这个被视为基础研究的项目，为公司后来的突破性进展奠定了基石。如今，这个团队的成果已成为业界领先的 AI 推理模型，即 AI 智能体背后的核心技术。
OpenAI 首席执行官山姆·奥特曼（Sam Altman）在2023年公司首届开发者大会上曾描绘了一个宏伟愿景:“最终，你只需向计算机提出需求，它就会为你完成所有任务。”他所指的正是 AI 智能体，一个能够像人类一样在计算机上执行复杂任务的 AI 系统。
OpenAI 的 AI 智能体之路，与一种名为强化学习（RL）的训练技术紧密相连。虽然 RL 早在2016年谷歌 DeepMind 的 AlphaGo 击败世界围棋冠军时就已名声大噪，但 OpenAI 的突破在于将其与大语言模型(LLM)相结合。
OpenAI 早期的 GPT 系列模型，虽然擅长文本处理，但在基础数学方面却举步维艰。直到2023年，OpenAI 团队取得了一项代号为“Strawberry”的突破。该技术结合了 LLM、强化学习以及“测试时间计算”技术，后者为模型提供了额外的时间和计算能力来规划、验证并解决问题。这一突破使得 OpenAI 能够引入“思路链”（CoT）方法，显著提升了模型在解决未知数学问题上的表现。
正如研究员埃尔·基什基（El Kishky）所描述:“我看到模型开始推理了。它会注意到错误，然后回溯，也会感到沮丧。感觉就像读懂了一个人的想法。”
这一技术组合最终促成了 OpenAI 推理模型 o1的诞生。o1的规划与事实核查能力，为打造强大的 AI 智能体提供了坚实基础。莱特曼表示，o1的诞生“解决了困扰我好几年的一个难题”，是他研究生涯中“最激动人心的时刻之一”。
2024年秋季，OpenAI 发布 o1模型，震惊了世界。这一突破证明，通过新的训练方法可以继续提升模型的性能。不到一年时间，o1背后的21位研究人员就成了硅谷最抢手的人才。
马克·扎克伯格（Mark Zuckerberg）以超过1亿美元的薪酬待遇，成功招募了五名 o1研究员加入 Meta 新成立的超级智能部门，其中包括被任命为该实验室首席科学家的赵胜佳。这一举动，凸显了 AI 推理模型在当前技术竞赛中的战略地位。
尽管 OpenAI 的模型已在国际数学奥林匹克竞赛中荣获金牌，但其最新的 AI 系统仍会产生幻觉，其智能体在执行复杂任务时也仍面临挑战。
目前市面上的 AI 智能体，如 OpenAI 的 Codex，最适合在编码等定义明确、可验证的领域工作。但在处理购物或寻找停车位等复杂且主观的任务时，通用 AI 智能体仍然举步维艰。
OpenAI 研究员诺姆·布朗（Noam Brown）表示，公司正在探索新的通用强化学习技术，以应对这些难以验证的任务。通过这种方式，OpenAI 打造了能在数学竞赛中夺金的模型。该模型能够生成多个“代理”，同时探索多个想法，最终选出最佳答案。谷歌和 xAI 等公司也已开始采用类似技术。
OpenAI 希望通过即将推出的 GPT-5等模型，进一步巩固其在 AI 领域的领先地位。埃尔·基什基表示，OpenAI 的最终目标是打造能够直观理解用户意图、无需繁琐设置的 AI 智能体。
尽管 OpenAI 在几年前引领了人工智能行业，但如今谷歌、Anthropic、xAI 和 Meta 等强劲对手也正迎头赶上。问题已不再是 OpenAI 能否实现其智能代理的未来，而是能否在竞争对手之前做到这一点。

AI 的“推理”之谜：OpenAI 如何用代码和数据重塑人类智能

OpenAI 通过强化学习（RL）和“思路链”（CoT）技术，训练了新型推理模型（如 o1 和 o3），使 AI 能够“先思考，后回答”，通过生成详细的中间推理步骤（CoT）来解决复杂问题（如数学和编程任务），而不是简单模仿数据规律。这些模型利用测试时间计算（test-time computation）和动态搜索策略（如 beam search 或蒙特卡洛树搜索），在推理阶段生成多个候选 CoT，并选择最佳答案，从而减少错误和幻觉，提升准确性和可靠性。此外，o1 的训练基于强化学习和人类产生的逐步推理示例，使模型能够理解复杂问题解决过程，且推理质量随投入的时间和算力增加而提升。OpenAI 的推理模型（如 o1 和 o3-mini）已可用于付费 ChatGPT 用户和 API，标志着 AI 发展的新阶段，即从训练扩展转向推理阶段的计算扩展。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：马斯克透露：大量Meta顶级工程师正转投xAI麾下

下一篇：苹果建立AI”搜索伙伴”小组：与ChatGPT竞争，可能革新Siri及Safari的搜索历程

揭开 AI 推理之谜：OpenAI 通过代码与数据革新人类智慧

最新Ai信息

最新Ai工具

热门AI推荐