OpenAI发布两款多模态推理模型o4-mini、满血版o3
发布时间:2025-04-17 08:35:48 | 责任编辑:字母汇 | 浏览量:12 次
在今天凌晨1点的技术直播中,OpenAI正式推出其最新且最强大的多模态模型o4-mini和满血版o3。这两款模型具备独特优势,不仅能同时处理文本、图像和音频,还可作为智能体自动调用网络搜索、图像生成、代码解析等工具,并且拥有深度思考模式,能在思维链中思考图像。
OpenAI公布的测试数据显示,o4-mini表现卓越。在AIME2024和2025测试中,其准确率分别达到93.4%和92.7%,甚至超越满血版o3,成为目前准确率最高的模型。在Codeforces编程竞赛测试中,o4-mini获得2700分,跻身全球前200名最强程序员之列。
与传统大模型不同,OpenAI首次赋予o3和o4-mini调用外部工具的能力。在训练过程中,模型不仅学习文本生成,还学习在面对复杂任务时如何选择合适的工具辅助推理。例如,解决复杂数学问题时,模型可调用计算器工具完成复杂计算;处理图像数据时,能调用图像处理工具进行裁剪、旋转等操作。这种工具使用能力使模型能应对更复杂的任务场景。
多模态推理能力是o3和o4-mini的另一大亮点。它们能同时处理文本、图像、音频等不同模态的数据,并进行有机整合。OpenAI采用创新的神经网络架构,将图像和文本数据分别编码为统一的特征表示。对于图像数据,通过卷积神经网络提取特征;对于文本数据,使用Transformer编码器提取语义信息。然后,通过一个融合模块将这些不同模态的特征进行整合,生成统一的特征表示,实现多模态数据的联合处理。此外,模型还具备对不同模态数据的动态处理能力,能根据任务需求动态调整处理权重。
在训练方面,OpenAI采用大规模无监督学习和少量监督学习相结合的方式。无监督学习部分,模型通过大量文本和图像数据进行预训练,学习语言和图像的基本特征和模式;监督学习部分,通过标注数据和工具使用数据对模型进行微调,使其更好地理解和使用工具。
在基准测试中,o3和o4-mini表现出色。在AIME2024测试中,o3准确率为91.6%,o4-mini为93.4%;在AIME2025测试中,o3准确率为88.9%,o4-mini为92.7%。在编程竞赛(Codeforces)测试中,o4-mini达到2719分,位列全球前200名参赛者之列,o3为2706分。在博士级问题解答GPQA测试中,o3模型准确率达到83%,o4-mini为81.4%。在多模态任务方面,o3和o4-mini在MMU Math、Vista、Charive和Vstar等多模态基准测试中同样表现出色。
除常规测试外,OpenAI还分享了一些实际使用测试结果。在科学研究领域,模型能帮助研究人员快速分析实验数据、查阅文献并提出新的研究思路;在软件开发领域,能帮助开发者快速定位和修复代码中的错误。这些实际应用测试结果进一步证明了o3和o4-mini在处理复杂科学问题和实际开发任务中的高效性和巨大潜力。
从今天起,ChatGPT Plus、Pro和Team用户将在模型选择器中看到o3、o4-mini和o4-mini-high。ChatGPT Enterprise和Edu用户将在一周后获得访问权限,所有计划的速率限制与之前的模型保持不变。满血版o3和o4-mini也通过Chat Completions API和Responses API向开发者开放。Responses API支持推理摘要功能,能在函数调用时保留推理标记以提升性能,并且很快将支持内置工具,包括网页搜索、文件搜索和代码解释器,以增强模型的推理能力。
OpenAI于2025年4月17日正式发布了两款多模态推理模型:o3和o4-mini。这两款模型是OpenAI迄今为止最智能的模型,代表了ChatGPT能力的重大飞跃。
模型特点
- 多模态推理能力:o3和o4-mini能够处理文本、图像等多种模态的信息,并进行深度推理。例如,用户可以上传白板笔记、草图等图像内容,让模型进行分析和讨论。
- 工具使用能力:这两款模型首次能够独立使用ChatGPT中的所有工具,包括网页搜索、Python数据分析、文件解析、图像生成等。模型被训练来判断何时以及如何使用这些工具,以产生详细且深思熟虑的答案。
- 性能与效率:o3在解决复杂问题上表现出色,例如在编程、科学推理和视觉理解等任务上都取得了优异的成绩。o4-mini则在性能、速度和成本之间取得了平衡,适合对成本敏感的应用场景。
应用场景
- 科学研究:o3能够帮助研究人员分析实验数据,甚至在短时间内阅读和理解多篇科学论文。
- 教育与学习:通过图像和文本的结合,模型可以为学生提供更直观的学习体验。
- 商业与咨询:o3和o4-mini可以协助进行市场分析、数据可视化等工作。
访问与使用
- 用户访问:o3和o4-mini已向ChatGPT Plus、Pro和Team用户开放,免费用户可以通过选择“Think”功能来体验o4-mini。
- 开发者接入:开发者可以通过Chat Completions API和Responses API接入这些模型。
未来展望
OpenAI计划在未来几周内发布o3-pro,这将是专为ChatGPT Pro用户设计的更强大的版本。此外,OpenAI正在努力将o系列的推理能力与GPT系列的自然对话能力相结合,以实现更智能的AI助手。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。