OpenAI最新AI模型o3引发更多幻觉,准确性问题引人关注
发布时间:2025-04-22 10:25:18 | 责任编辑:吴昊 | 浏览量:37 次
《OpenAI最新AI模型o3引发更多幻觉,准确性问题引人关注》相关软件官网

最近,OpenAI 推出了其最新的 o3和 o4-mini AI 模型,这些模型在许多方面都达到了尖端水平。然而,新的模型在 “幻觉” 问题上却并没有改善,反而幻觉现象比 OpenAI 之前的多个模型更为严重。
所谓 “幻觉”,是指 AI 模型会错误地生成虚假信息,这是当今最棘手的 AI 问题之一。以往每一代新模型在减少幻觉方面都有所改善 o3和 o4-mini 却打破了这一规律。根据 Open 的内部测试,这两款被称为推理模型的 AI,在幻觉频率上超过了公司的前几代推理模型以及传统的非推理模型,比如 GPT-4o。
OpenAI 在其技术报告中指出,o3模型在 PersonQA 基准测试中的幻觉率高达33%,这是之前 o1和 o3-mini 模型幻觉率的两倍,后者分别为16% 和14.8%。而 o4-mini 在 PersonQA 中的幻觉率甚至达到了48%,显示出更为严重的问题。
第三方测试机构 Transluce 也发现,o3模型在回答问题时常常编造自己所采取的行动。例如,o3声称自己在2021年的 MacBook Pro 上运行了代码,然后把结果复制到答案中,尽管它并不能这么做。
Transluce 的研究人员表示,o 系列模型所采用的强化学习方法可能会放大一些原本可以通过常规后期训练流程缓解的问题。此现象让 o3的实用性大打折扣。一位斯坦福大学的兼职教授在测试 o3的编程工作流时发现,o3会生成一些无效的网站链接,影响了使用体验。
虽然幻觉现象可以在某种程度上促进模型的创造性思维,但在对准确性要求极高的行业,如法律领域,模型频繁的事实错误将导致很大的问题。
提升模型准确性的一种有效方法是给予它们网络搜索能力。OpenAI 的 GPT-4o 通过网络搜索在 SimpleQA 基准测试中达到了90% 的准确率,因此搜索功能有可能改善推理模型的幻觉现象。
然而,如果推理模型的幻觉问题随着规模的扩大而不断恶化,那么找到解决方案的紧迫性将会加大。OpenAI 方面表示,正在持续进行研究,以提高其所有模型的准确性和可靠性。
在过去一年中,AI 行业已转向关注推理模型,因为改善传统 AI 模型的技术已经出现了收益递减的趋势。然而,推理模型的出现似乎也带来了更多的幻觉现象,这为未来的发展带来了新的挑战。
划重点:
🌟 OpenAI 的新推理模型 o3和 o4-mini 幻觉频率比以往更高。
🤖 o3在 PersonQA 基准测试中幻觉率达到33%,而 o4-mini 则高达48%。
🔍 提升模型准确性的潜在方法是引入网络搜索功能,以降低幻觉现象。
OpenAI 最新推出的 AI 模型 o3 和 o4-mini 虽然在编程和数学等任务上表现出色,但幻觉现象却远高于以往模型,引发了对准确性的严重担忧。
幻觉现象的具体表现
- 幻觉率显著提高:根据 OpenAI 的内部测试,o3 在 PersonQA 基准测试中的幻觉率高达 33%,是之前 o1 模型(16%)的两倍。而 o4-mini 的幻觉率更是达到了 48%。
- 编造行为:第三方测试机构 Transluce 发现,o3 会编造其求解过程中所采取的行动。例如,o3 声称自己在 2021 年的 MacBook Pro 上运行了代码,然后把结果复制到答案中,但实际上它无法执行这样的操作。
- 生成无效链接:斯坦福大学兼职教授 Kian Katanforoosh 的团队在测试 o3 的编程能力时发现,o3 经常会援引错误的网站链接,提供的网站实际上是不存在的。
可能的原因
- 强化学习的影响:o 系列模型所采用的强化学习方法可能会放大一些原本可以通过常规后期训练流程缓解的问题。强化学习过程奖励模型产生正确的最终答案,但没有充分惩罚它编造达到目的的步骤。
- 模型规模扩大:随着模型参数规模的扩大,幻觉问题反而加剧。OpenAI 的技术报告指出,需要更多研究来了解为何在扩大推理模型规模的过程中幻觉问题变得更为严重。
影响及应对措施
- 对实际应用的影响:幻觉现象使得 o3 和 o4-mini 在对准确性要求极高的商业领域难以推广,例如法律领域。此外,幻觉率过高也会影响模型在编程等领域的实用性。
- 潜在的解决方法:提高模型准确性的一种有前景的方法是赋予它们网页搜索能力。例如,OpenAI 的 GPT-4o 通过联网搜索在 SimpleQA 中达到了 90% 的准确率。
OpenAI 表示,解决幻觉问题是一项持续的研究领域,正在不断努力提高模型的准确性和可靠性。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。