OpenAI推出创新AI模型,赋予”视觉思维”新功能
发布时间:2025-04-17 11:14:19 | 责任编辑:字母汇 | 浏览量:13 次
OpenAI 最近推出了其最新的人工智能模型,名为 o3。这款模型标志着 AI 在理解和分析图像方面的一次重大进步,尤其是在处理低质量草图和图表方面。与此同时,OpenAI 还发布了一个较小的版本 o4-mini,进一步丰富了其产品线。
o3模型的核心功能在于能够 “用图像思考”,这意味着用户可以上传各种图像,如白板草图和复杂的图表,让 AI 进行深入分析和讨论。这一进展使得 AI 不仅仅停留在文本分析的层面,而是能够将视觉信息整合进推理过程中,从而更高效地解决复杂问题。用户能够通过图像编辑工具对上传的图片进行旋转和缩放,增加了互动性。
自从2022年底推出了广受欢迎的 ChatGPT 聊天机器人以来,OpenAI 一直在快速扩展其模型能力,从文字向图像、语音甚至视频领域迈进。该公司的目标是在生成式人工智能领域保持领先地位,面对来自谷歌、Anthropic 和马斯克的 xAI 等公司的激烈竞争,OpenAI 的最新产品显得尤为重要。
OpenAI 的 CEO 萨姆・奥特曼在社交媒体上也调侃了公司的模型命名问题,表示将在未来修正这一问题,并欢迎大家的反馈。此外,这两款新模型已经经过了严格的安全测试,以确保它们在使用过程中的可靠性。
对于用户来说,o3和 o4-mini 的推出意味着更强大的 AI 助手,这些模型不仅可以进行深度学习和推理,还能进行更复杂的操作。ChatGPT Plus、Pro 和 Team 用户现在都可以使用这两款新模型,感受其带来的创新体验。
OpenAI 的 o3和 o4-mini 模型的发布,展示了人工智能领域的最新发展,推动了 AI 技术在图像理解和推理能力上的进一步提升。
OpenAI于2025年4月16日发布了两款全新的人工智能模型o3和o4-mini,这两款模型首次实现了“图像思考”能力。
模型特点
-
图像思考能力:o3和o4-mini能够将图像直接整合到推理链条中,而不仅仅是简单地识别图像。它们可以在回答问题前对图像进行分析、裁剪、旋转或放大等操作,从而更深入地理解图像内容。
-
多模态处理能力:这两款模型能够同时处理文本、图像和音频等多种类型的数据。它们还可以作为智能体(Agent),自动调用网络搜索、图像生成、代码解析等工具。
-
深度思考与工具使用:o3和o4-mini在回答问题前会进行更长时间的内部思考,并生成较长的思维链。它们能够自主判断何时以及如何使用工具,以正确格式快速生成可靠答案。
性能表现
-
基准测试:在多项基准测试中,o3和o4-mini的表现优于前代模型o1。例如,在MMMU大学级视觉问题解决任务中,o3的准确率达82.9%,o4-mini为81.6%;在MathVista视觉数学推理测试中,o3取得86.8%的成绩,o4-mini为84.3%。
-
竞赛表现:在AIME 2024数学竞赛题目中,o3和o4-mini的准确率分别达到了91.6%和93.4%,远超前代o1的74.3%。
应用场景
-
图像分析与编辑:用户可以上传白板、草图、图表等图像,模型能够对其进行分析和讨论,并执行图像编辑操作。
-
复杂问题解决:在解决复杂的科学、数学和编程问题时,o3和o4-mini能够利用图像思考能力,结合网页搜索、文件分析等功能,提供更全面的解决方案。
用户体验
-
开放使用:从2025年4月17日起,ChatGPT的Plus、Pro会员以及Team用户可以直接体验o3、o4-mini和o4-mini-high。免费用户可以通过“Think”模式使用o4-mini。
-
开发者支持:开发者可以通过Chat Completions API和Responses API访问这些模型,并利用其推理摘要和函数调用优化功能。
o3和o4-mini的发布标志着OpenAI在人工智能领域的一次重大突破,它们不仅具备强大的视觉推理能力,还在多模态处理和复杂问题解决方面展现了卓越的性能。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。