首页 > 快讯 > AI 学霸面临严峻考验!GPT-4o 在专家级别测试中仅获 2.7 分成绩

AI 学霸面临严峻考验!GPT-4o 在专家级别测试中仅获 2.7 分成绩

发布时间:2026-02-03 16:02:30 | 责任编辑:吴昊 | 浏览量:3 次

最近一项名为 “人类终极考试”(HLE)的测试结果让我们重新审视 AI 的真实能力。根据《自然》杂志的报道,GPT-4o 在这 2500 道由全球专家出题的测试中,仅获得了可怜的 2.7 分(满分 100 分),而表现最好的 AI 模型也仅得 8 分。这一结果让人质疑,AI 的强大究竟是实打实的实力,还是表面的繁荣?
传统的 AI 测试越来越无法反映真实能力,主要原因有两个。一是 “基准饱和”,即 AI 系统已经将常规测试题目背得滚瓜烂熟,得分的高低与真正的理解能力无关;二是 “答案作弊”,很多测试的答案可以直接在网上找到,使得 AI 看似答对问题,但实际上只是依赖于检索和记忆,而非真正的推理能力。
为了解决这些问题,HLE 的设计者们集结了来自 50 个国家的近 1000 名专家,确保每道题目都要求深层的专业知识,难度大幅提升。HLE 的题目不仅覆盖了数学、物理、化学等多个领域,还设定了严格的审核流程,确保题目难度足够,难以被 AI 轻易破解。比如数学题需要深入逻辑推理,化学题涉及复杂的反应机制,绝不是简单的检索就能得到答案。
测试结果一目了然:GPT-4o 仅得 2.7 分,Claude 3.5 Sonnet 和 Gemini 1.5 Pro 也只分别获得 4.1% 和 4.6% 的准确率,表现最好的 o1 也仅得 8%。这些数据清楚地表明,即便是最新一代的 AI,在面对真正需要深厚专业知识的问题时,依然显得无能为力。
通过 HLE 的测试,我们可以看到 AI 的真实能力与传统基准测试中的高分形成了鲜明对比。这也促使我们重新思考,AI 是否真的如我们想象中那样聪明,还是只是一种表象的成功。

AI 学霸面临严峻考验!GPT-4o 在专家级别测试中仅获 2.7 分成绩

这是一篇关于AI 学霸遭遇重创!GPT-4o 专家考试仅得 2.7 分的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐