OpenAI o3 模型评测成绩引争议,实测效果显著偏离广告宣称
发布时间:2025-04-21 09:29:52 | 责任编辑:吴昊 | 浏览量:63 次
《OpenAI o3 模型评测成绩引争议,实测效果显著偏离广告宣称》相关软件官网

近日,OpenAI 推出的 o3人工智能模型在基准测试中的表现引发了广泛争议。尽管 OpenAI 在去年12月首次发布 o3时自信地宣称该模型在极具挑战性的 FrontierMath 数学问题集上能够正确回答超过四分之一的问题,但这一声称与最近的独立测试结果形成鲜明对比。
Epoch 研究所对 o3模型进行了独立测试,结果显示该模型的实际得分仅为10%,远低于 OpenAI 之前所宣称的25%。在 OpenAI 首席研究官 Mark Chen 的公开演示中,他表示 o3模型的内部测试结果十分优秀,远超竞争对手,后者在同一问题集上的正确率不足2%。然而,这个理想化的高分数可能是通过使用更强大计算资源的 o3版本实现的,而并非是上周正式发布的版本。
Epoch 在其报告中指出,测试结果的差异可能源于多种因素,包括 OpenAI 使用了更先进的计算框架和不同的测试条件。同时,该机构也提到,他们的评估是基于更新版本的 FrontierMath,这可能导致结果的不同。
此外,ARC Prize 基金会也发表声明,表示公开发布的 o3模型与他们早前测试的预发布版本有很大不同,公开版经过了针对聊天和产品使用的调整,且计算层级普遍较小。通常情况下,计算层级越大,基准测试得分越好。
虽然 o3模型未能完全达到 OpenAI 的测试标准,但这似乎并不影响其市场表现,因为 OpenAI 最近推出的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上已表现得更为出色。更令人期待的是,OpenAI 将在不久后推出更强大的 o3版本 ——o3-pro。
此次事件再一次警示公众,AI 基准测试的结果不应被完全信任,尤其是来自于有产品推出压力的公司。在竞争激烈的 AI 行业中,各大厂商为了争夺市场份额,往往急于推出新模型,而这也使得基准测试的争议日益增多。
OpenAI的O3模型在测试成绩方面引发了广泛质疑,主要原因是其实际表现与宣传存在较大差异。以下是相关情况的梳理:
宣传与实际测试结果差异
- OpenAI宣传:2023年12月,OpenAI首次发布O3模型时声称,该模型在FrontierMath数学问题集上能够正确回答超过25%的问题。这一成绩远超其他竞争对手,排名第二的模型仅能正确回答约2%的问题。
- 第三方测试结果:然而,负责FrontierMath的Epoch研究所于2025年4月18日公布的独立基准测试结果显示,公开发布的O3模型得分仅为约10%,远低于OpenAI此前声称的25%。
导致差异的可能原因
- 测试设置差异:Epoch研究所指出,他们的测试设置可能与OpenAI不同,例如使用了FrontierMath的不同版本(如2024年11月26日版本与2025年2月28日私有版本)。此外,OpenAI在内部测试中可能使用了更强大的计算框架或更多的测试时间。
- 模型版本不同:ARC Prize基金会表示,公开发布的O3模型是一个针对聊天和产品使用进行了调整的不同版本,其计算层级比预发布版本小。这意味着公开版本在性能上可能有所妥协。
事件影响与行业背景
- 对OpenAI的质疑:这一事件引发了外界对OpenAI透明度和测试实践的质疑。尽管OpenAI在宣传中提到了内部测试的激进条件,但公开版本与预发布版本的差异仍然让外界对其数据的真实性产生怀疑。
- 行业普遍现象:随着AI行业竞争加剧,基准测试结果的争议逐渐成为普遍现象。例如,埃隆·马斯克的xAI公司被指控其最新模型Grok 3的基准测试图表具有误导性,而Meta公司也承认其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。
综上所述,OpenAI O3模型的测试成绩争议并非简单的数据错误,而是涉及到测试设置、模型版本以及行业竞争等多方面因素。这一事件也提醒了公众在面对AI模型宣传时需要更加谨慎,同时呼吁行业内建立更加透明和统一的测试标准。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。