首页 > 快讯 > OpenAI推出创新AI模型，赋予”视觉思维”新功能

OpenAI推出创新AI模型，赋予”视觉思维”新功能

发布时间：2025-04-17 11:14:19 | 责任编辑：字母汇 | 浏览量：209 次

OpenAI 最近推出了其最新的人工智能模型，名为 o3。这款模型标志着 AI 在理解和分析图像方面的一次重大进步，尤其是在处理低质量草图和图表方面。与此同时，OpenAI 还发布了一个较小的版本 o4-mini，进一步丰富了其产品线。
o3模型的核心功能在于能够 “用图像思考”，这意味着用户可以上传各种图像，如白板草图和复杂的图表，让 AI 进行深入分析和讨论。这一进展使得 AI 不仅仅停留在文本分析的层面，而是能够将视觉信息整合进推理过程中，从而更高效地解决复杂问题。用户能够通过图像编辑工具对上传的图片进行旋转和缩放，增加了互动性。
自从2022年底推出了广受欢迎的 ChatGPT 聊天机器人以来，OpenAI 一直在快速扩展其模型能力，从文字向图像、语音甚至视频领域迈进。该公司的目标是在生成式人工智能领域保持领先地位，面对来自谷歌、Anthropic 和马斯克的 xAI 等公司的激烈竞争，OpenAI 的最新产品显得尤为重要。
OpenAI 的 CEO 萨姆・奥特曼在社交媒体上也调侃了公司的模型命名问题，表示将在未来修正这一问题，并欢迎大家的反馈。此外，这两款新模型已经经过了严格的安全测试，以确保它们在使用过程中的可靠性。
对于用户来说，o3和 o4-mini 的推出意味着更强大的 AI 助手，这些模型不仅可以进行深度学习和推理，还能进行更复杂的操作。ChatGPT Plus、Pro 和 Team 用户现在都可以使用这两款新模型，感受其带来的创新体验。
OpenAI 的 o3和 o4-mini 模型的发布，展示了人工智能领域的最新发展，推动了 AI 技术在图像理解和推理能力上的进一步提升。

OpenAI于2025年4月16日发布了两款全新的人工智能模型o3和o4-mini，这两款模型首次实现了“图像思考”能力。

模型特点

图像思考能力：o3和o4-mini能够将图像直接整合到推理链条中，而不仅仅是简单地识别图像。它们可以在回答问题前对图像进行分析、裁剪、旋转或放大等操作，从而更深入地理解图像内容。
多模态处理能力：这两款模型能够同时处理文本、图像和音频等多种类型的数据。它们还可以作为智能体（Agent），自动调用网络搜索、图像生成、代码解析等工具。
深度思考与工具使用：o3和o4-mini在回答问题前会进行更长时间的内部思考，并生成较长的思维链。它们能够自主判断何时以及如何使用工具，以正确格式快速生成可靠答案。

性能表现

基准测试：在多项基准测试中，o3和o4-mini的表现优于前代模型o1。例如，在MMMU大学级视觉问题解决任务中，o3的准确率达82.9%，o4-mini为81.6%；在MathVista视觉数学推理测试中，o3取得86.8%的成绩，o4-mini为84.3%。
竞赛表现：在AIME 2024数学竞赛题目中，o3和o4-mini的准确率分别达到了91.6%和93.4%，远超前代o1的74.3%。

应用场景

图像分析与编辑：用户可以上传白板、草图、图表等图像，模型能够对其进行分析和讨论，并执行图像编辑操作。
复杂问题解决：在解决复杂的科学、数学和编程问题时，o3和o4-mini能够利用图像思考能力，结合网页搜索、文件分析等功能，提供更全面的解决方案。

用户体验

开放使用：从2025年4月17日起，ChatGPT的Plus、Pro会员以及Team用户可以直接体验o3、o4-mini和o4-mini-high。免费用户可以通过“Think”模式使用o4-mini。
开发者支持：开发者可以通过Chat Completions API和Responses API访问这些模型，并利用其推理摘要和函数调用优化功能。

o3和o4-mini的发布标志着OpenAI在人工智能领域的一次重大突破，它们不仅具备强大的视觉推理能力，还在多模态处理和复杂问题解决方面展现了卓越的性能。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。