首页 > 快讯 > OpenAI发布两款多模态推理模型o4-mini、满血版o3

OpenAI发布两款多模态推理模型o4-mini、满血版o3

发布时间：2025-04-17 08:35:48 | 责任编辑：字母汇 | 浏览量：282 次

在今天凌晨1点的技术直播中，OpenAI正式推出其最新且最强大的多模态模型o4-mini和满血版o3。这两款模型具备独特优势，不仅能同时处理文本、图像和音频，还可作为智能体自动调用网络搜索、图像生成、代码解析等工具，并且拥有深度思考模式，能在思维链中思考图像。
OpenAI公布的测试数据显示，o4-mini表现卓越。在AIME2024和2025测试中，其准确率分别达到93.4%和92.7%，甚至超越满血版o3，成为目前准确率最高的模型。在Codeforces编程竞赛测试中，o4-mini获得2700分，跻身全球前200名最强程序员之列。
与传统大模型不同，OpenAI首次赋予o3和o4-mini调用外部工具的能力。在训练过程中，模型不仅学习文本生成，还学习在面对复杂任务时如何选择合适的工具辅助推理。例如，解决复杂数学问题时，模型可调用计算器工具完成复杂计算;处理图像数据时，能调用图像处理工具进行裁剪、旋转等操作。这种工具使用能力使模型能应对更复杂的任务场景。
多模态推理能力是o3和o4-mini的另一大亮点。它们能同时处理文本、图像、音频等不同模态的数据，并进行有机整合。OpenAI采用创新的神经网络架构，将图像和文本数据分别编码为统一的特征表示。对于图像数据，通过卷积神经网络提取特征;对于文本数据，使用Transformer编码器提取语义信息。然后，通过一个融合模块将这些不同模态的特征进行整合，生成统一的特征表示，实现多模态数据的联合处理。此外，模型还具备对不同模态数据的动态处理能力，能根据任务需求动态调整处理权重。
在训练方面，OpenAI采用大规模无监督学习和少量监督学习相结合的方式。无监督学习部分，模型通过大量文本和图像数据进行预训练，学习语言和图像的基本特征和模式;监督学习部分，通过标注数据和工具使用数据对模型进行微调，使其更好地理解和使用工具。
在基准测试中，o3和o4-mini表现出色。在AIME2024测试中，o3准确率为91.6%，o4-mini为93.4%;在AIME2025测试中，o3准确率为88.9%，o4-mini为92.7%。在编程竞赛（Codeforces）测试中，o4-mini达到2719分，位列全球前200名参赛者之列，o3为2706分。在博士级问题解答GPQA测试中，o3模型准确率达到83%，o4-mini为81.4%。在多模态任务方面，o3和o4-mini在MMU Math、Vista、Charive和Vstar等多模态基准测试中同样表现出色。
除常规测试外，OpenAI还分享了一些实际使用测试结果。在科学研究领域，模型能帮助研究人员快速分析实验数据、查阅文献并提出新的研究思路;在软件开发领域，能帮助开发者快速定位和修复代码中的错误。这些实际应用测试结果进一步证明了o3和o4-mini在处理复杂科学问题和实际开发任务中的高效性和巨大潜力。
从今天起，ChatGPT Plus、Pro和Team用户将在模型选择器中看到o3、o4-mini和o4-mini-high。ChatGPT Enterprise和Edu用户将在一周后获得访问权限，所有计划的速率限制与之前的模型保持不变。满血版o3和o4-mini也通过Chat Completions API和Responses API向开发者开放。Responses API支持推理摘要功能，能在函数调用时保留推理标记以提升性能，并且很快将支持内置工具，包括网页搜索、文件搜索和代码解释器，以增强模型的推理能力。

OpenAI于2025年4月17日正式发布了两款多模态推理模型：o3和o4-mini。这两款模型是OpenAI迄今为止最智能的模型，代表了ChatGPT能力的重大飞跃。

模型特点

多模态推理能力：o3和o4-mini能够处理文本、图像等多种模态的信息，并进行深度推理。例如，用户可以上传白板笔记、草图等图像内容，让模型进行分析和讨论。
工具使用能力：这两款模型首次能够独立使用ChatGPT中的所有工具，包括网页搜索、Python数据分析、文件解析、图像生成等。模型被训练来判断何时以及如何使用这些工具，以产生详细且深思熟虑的答案。
性能与效率：o3在解决复杂问题上表现出色，例如在编程、科学推理和视觉理解等任务上都取得了优异的成绩。o4-mini则在性能、速度和成本之间取得了平衡，适合对成本敏感的应用场景。

应用场景

科学研究：o3能够帮助研究人员分析实验数据，甚至在短时间内阅读和理解多篇科学论文。
教育与学习：通过图像和文本的结合，模型可以为学生提供更直观的学习体验。
商业与咨询：o3和o4-mini可以协助进行市场分析、数据可视化等工作。

访问与使用

用户访问：o3和o4-mini已向ChatGPT Plus、Pro和Team用户开放，免费用户可以通过选择“Think”功能来体验o4-mini。
开发者接入：开发者可以通过Chat Completions API和Responses API接入这些模型。

未来展望

OpenAI计划在未来几周内发布o3-pro，这将是专为ChatGPT Pro用户设计的更强大的版本。此外，OpenAI正在努力将o系列的推理能力与GPT系列的自然对话能力相结合，以实现更智能的AI助手。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。