首页 > 快讯 > AI 学霸面临严峻考验！GPT-4o 在专家级别测试中仅获 2.7 分成绩

AI 学霸面临严峻考验！GPT-4o 在专家级别测试中仅获 2.7 分成绩

发布时间：2026-02-03 16:02:30 | 责任编辑：吴昊 | 浏览量：79 次

最近一项名为 “人类终极考试”（HLE）的测试结果让我们重新审视 AI 的真实能力。根据《自然》杂志的报道，GPT-4o 在这 2500 道由全球专家出题的测试中，仅获得了可怜的 2.7 分（满分 100 分），而表现最好的 AI 模型也仅得 8 分。这一结果让人质疑，AI 的强大究竟是实打实的实力，还是表面的繁荣？
传统的 AI 测试越来越无法反映真实能力，主要原因有两个。一是 “基准饱和”，即 AI 系统已经将常规测试题目背得滚瓜烂熟，得分的高低与真正的理解能力无关；二是 “答案作弊”，很多测试的答案可以直接在网上找到，使得 AI 看似答对问题，但实际上只是依赖于检索和记忆，而非真正的推理能力。
为了解决这些问题，HLE 的设计者们集结了来自 50 个国家的近 1000 名专家，确保每道题目都要求深层的专业知识，难度大幅提升。HLE 的题目不仅覆盖了数学、物理、化学等多个领域，还设定了严格的审核流程，确保题目难度足够，难以被 AI 轻易破解。比如数学题需要深入逻辑推理，化学题涉及复杂的反应机制，绝不是简单的检索就能得到答案。
测试结果一目了然：GPT-4o 仅得 2.7 分，Claude 3.5 Sonnet 和 Gemini 1.5 Pro 也只分别获得 4.1% 和 4.6% 的准确率，表现最好的 o1 也仅得 8%。这些数据清楚地表明，即便是最新一代的 AI，在面对真正需要深厚专业知识的问题时，依然显得无能为力。
通过 HLE 的测试，我们可以看到 AI 的真实能力与传统基准测试中的高分形成了鲜明对比。这也促使我们重新思考，AI 是否真的如我们想象中那样聪明，还是只是一种表象的成功。

这是一篇关于AI 学霸遭遇重创！GPT-4o 专家考试仅得 2.7 分的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：前OpenAI专家提醒：AI无法从经验中学习，AGI正遇到重要难关

下一篇：新时代智能交通：大模型网关对AI应用格局的革新作用

AI 学霸面临严峻考验！GPT-4o 在专家级别测试中仅获 2.7 分成绩

最新Ai信息

最新Ai工具

热门AI推荐