OpenAI 发布首款具备推理能力的模型 o1
发布时间:2024-09-16 15:41:00 · 责任编辑:字母汇 · 浏览量:238 次
2024 年 9 月 13 日,OpenAI 发布了首款具有推理能力的模型 o1。o1 是 OpenAI 下一代 “推理” 模型中的第一个,被视为传闻中的 “草莓” 大模型。
o1 模型在处理难而复杂的任务上展现出强大的推理能力,尽管作答前需要花费更多时间思考。OpenAI 表示,o1 模型采用了强化学习技术,通过增加测试、推理时的计算资源,显著提高了模型性能。在解决博士水平的物理问题时,o1 模型一跃而至 “优秀档” 获得 92.8 分,这样的成绩能够跻身美国前 500 学生的行列,超过美国数学奥林匹克的入选分数线。在测试化学、物理和生物学专业知识的基准 GPQA-diamond 上,o1 的表现全面超越人类博士专家。
o1 模型在国际数学奥林匹克(IMO)资格考试中,得分超 83%,远高于 GPT-4o 的 13%。在 Codeforces 编程竞赛中,o1 模型的成绩达到了前 89%,而 GPT-4o 仅达到 11%。在启用视觉感知能力的情况下,o1 模型在 MMMU(多模态理解)测试中获得了 78.2% 的高分,成为首个能与人类专家展开竞争的 AI 模型。在 MMLU(大规模多任务语言理解)测试中,在总计 57 个子类别中,o1 在 54 个类别上都超越了 GPT-4o 的表现。在 2024 年美国数学邀请赛(AIME)考试中,GPT-4o 平均只解决了 12% 的问题,o1 模型测试单次正确率高达 74%,64 次采样的正确率提升至 83%,1000 次采样后使用学习型评分函数重新排序后的正确率高达 93%。
o1 系列包含三款模型,OpenAI o1、OpenAI o1-preview 和 OpenAI o1-mini。OpenAI o1 作为最高级的推理模型,暂不对外开放。OpenAI o1-preview,更注重深度推理处理,每周可以使用 30 次。OpenAI o1-mini,更高效、划算,适用于编码任务,每周可以使用 50 次。开发人员访问 o1 非常昂贵,在 API 中,o1-preview 每 100 万个输入 token 收费 15 美元,是 GPT-4o 成本的三倍,每 100 万个输出 token 收费 60 美元,是 GPT-4o 成本的四倍。
o1 模型的出现代表了人工智能能力的新水平,为复杂推理任务带来了重大进步,也标志着 OpenAI 在人工智能领域迈向了新的阶段。
o1 模型在物理问题上的表现
OpenAI 发布的 o1 模型在物理问题上表现优异。2024 年 9 月 13 日凌晨,OpenAI 官网正式推出新款 AI 大模型 o1,网传该模型在物理、生物和化学领域超越人类博士。为了验证 o1 大模型与其它 AI 模型的数据推理能力,有人找到 2007 年春季清华大学物理系博士生资格考试的题目分别输送给不同的模型,其中 ChatGPTo1-preview 对题目进行了详细的分析与解答,并举例进行论证。这表明 o1 模型在处理物理问题时,能够深入分析问题,运用推理能力给出较为准确的答案。同时,在一些测试中,o1 模型的表现超过了人类博士专家。例如在测试物理、化学和生物学专业知识的 GPQA Diamond 基准上,o1 的表现竟然超过了人类博士专家,这是 AI 历史上的第一次。这显示出 o1 模型在物理问题的处理上具有强大的实力,能够为物理研究人员提供有效的帮助,比如生成复杂的量子光学公式等。
o1 模型在化学、物理和生物学专业知识测试中的表现
o1 模型在化学、物理和生物学专业知识的测试中表现出色,达到了博士生的水平。在众多基准测试上均超过了 GPT-4o。在测试化学、物理和生物学专业知识的 GPQA Diamond 基准上,o1 的表现全面超过了人类博士专家,这也是有史以来第一个获得此成就的模型。例如在化学的题目测试中,涉及电化学等内容,把 AgCl/Ag 的标准电极电势作为已知条件一同输入给模型,o1-preview 和 o1-mini 大致的解题思路差不多,在计算步骤上有细微差别,但最后结果是正确的。在物理方面,选择了一道大学物理中的光学题,o1-preview 和 o1-mini 都给出了正确解答,内容也基本一致。这表明 o1 模型在处理化学、物理和生物学专业知识方面具有很高的准确性和可靠性,能够为相关领域的研究和应用提供有力的支持。
o1 模型在国际数学奥林匹克资格考试中的表现
o1 模型在国际数学奥林匹克资格考试中表现突出。在国际数学奥林匹克(IMO)资格考试中,GPT-4o 只正确解决了 13% 的问题,而 o1 的得分是 83%。这显示出 o1 模型在数学问题的处理上具有强大的推理能力和准确性。o1 模型在回答问题前会先 “思考”,而且速度比人类更快。它采用 “强化学习” 的方式,通过奖励和惩罚来教导模型自行解决问题,再通过 “思路链” 来处理用户查询的问题,给出思路链的总结摘要版。这种训练方式使得 o1 模型在国际数学奥林匹克资格考试中能够取得优异的成绩,也为解决其他复杂的数学问题提供了有力的支持。
o1 系列三款模型的特点
OpenAI 发布的 o1 系列模型包括 o1-preview、o1-mini 和未来可能加入更多功能的版本。o1-preview 是预览版,性能强大,适用于处理各个领域推理的复杂任务,但目前使用有一定次数限制,每周 30 条消息。o1-mini 是更小、更便宜的版本,聚焦在编程用例,每周有 50 条消息限制。o1 系列模型经过训练,能够花更多时间思考问题,尝试不同的策略,并识别自己的错误,就像人类一样。它们在物理、化学和生物等学科的 challenging 基准测试中,表现与博士生相当;在数学和编程能力方面也爆表,在 Codeforces 编程竞赛中,o1 模型的成绩达到了前 89%。o1 系列模型的安全性也得到了提升,开发了一种新的安全训练方法,利用 o1 模型的推理能力,让它们更好地遵守安全和对齐准则,具有更强的 “越狱” 抵抗力。
o1 模型的开发成本
开发人员访问 o1 非常昂贵。在 API 中,o1-preview 每 100 万个输入 token 收费 15 美元,是 GPT-4o 成本的三倍,每 100 万个输出 token 收费 60 美元,是 GPT-4o 成本的四倍。这使得 o1 模型的开发成本相对较高,但也反映了其强大的性能和推理能力。尽管开发成本高,但 o1 模型在解决复杂推理问题上的显著进步,代表了人工智能能力的新水平,对于需要解决科学、编码、数学等领域复杂问题的用户来说,这些增强的推理功能将尤为有用。
OpenAI 发布的首款具备推理能力的模型 o1,在物理、化学、生物学专业知识测试以及国际数学奥林匹克资格考试中都表现出色,超越了人类博士专家。o1 系列三款模型各具特点,适用于不同的应用场景。虽然开发成本较高,但它的强大性能和推理能力为人工智能的发展带来了新的突破和机遇。