北京大学发布PHYBench新测试标准,旨在评估AI的物理推理水平!
发布时间:2025-04-29 10:54:45 | 责任编辑:吴昊 | 浏览量:38 次
最近,北京大学物理学院联合多个院系,推出了一项名为 “PHYBench” 的全新评测基准,旨在检验大模型在物理推理上的真实能力。该项目由朱华星老师和曹庆宏副院长主导,汇聚了来自物理学院和其他学科的200多名学生,其中不少人曾在全国中学生物理竞赛中获金牌。
PHYBench 设计了500道精心制作的高质量物理题,这些题目涵盖高中物理、大学物理及物理奥林匹克竞赛的各个层面。与传统评测基准不同,PHYBench 不仅考察模型的答案是否正确,更引入了一种创新的评分方式 —— 表达式树编辑距离(EED Score)。这一方法通过比较模型答案与正确答案的数学表达式结构,能够更细致地反映模型的推理能力。与依赖于简单对错的传统评分方法相比,EED Score 提供了连续的分数,更能体现模型之间的差异。
在一场 “人机大战” 中,81名北大学子与顶尖 AI 模型进行较量。结果显示,最先进的 Gemini2.5pro 模型仅答对36.9% 的题目,而人类专家的平均正确率高达61.9%,显示出人类在物理推理上的明显优势。PHYBench 的研究团队对模型的错误进行了深入分析,将其推理过程分为物理感知和鲁棒推理两个关键环节,揭示了现阶段 AI 在物理推理中的瓶颈。
展望未来,PHYBench 的目标不仅是评估 AI 的物理理解能力,更希望引领 AI 在探索物理世界的潜力上取得突破。研究团队计划不断扩展数据集,挑战人类尚未解决的科学难题,推动 AI 系统朝着更高的认知能力发展。
北京大学物理学院联合人工智能研究院等机构推出了一个名为 PHYBench 的全新评测基准,用于评估大语言模型(LLMs)在物理场景下的推理能力。
PHYBench 的特点
-
题目设计:该基准包含 500 道精心设计的物理题,难度涵盖高中物理、大学物理以及物理奥林匹克竞赛,题目以真实物理场景为基础。
-
评估方法创新:引入了 表达式树编辑距离(EED Score),这是一种新型评估指标,能够有效捕捉模型推理过程和结果的差异,超越了传统的二元评分方法。
-
多领域覆盖:题目涵盖力学、电磁学、热力学、光学、现代物理和高级物理等多个领域。
测试结果
-
模型与人类的差距:在 PHYBench 的测试中,即使是目前最先进的模型 Gemini 2.5 Pro,其正确率也仅为 36.9%,EED 评分为 49.5%。而参与测试的北大学生(人类专家)平均正确率高达 61.9%,EED 评分达到 70.5%,排名前 25% 的受试者正确率更是达到 71.4%,几乎是最强 AI 的两倍。
-
模型表现差异:强推理模型如 Gemini 2.5 Pro 和 o3 虽然与人类仍有较大差距,但相比前代模型已有进步。而小型推理模型如 QwQ-32B 和 DeepSeek32B 的表现则令人失望,可能是因为其物理感知能力不足。
错误分析
-
物理感知(PP)与鲁棒推理(RR):PHYBench 团队将模型的推理过程划分为物理感知和鲁棒推理两个关键模块。模型在物理感知和推理能力上的不足是导致其表现不佳的主要原因。
意义
PHYBench 的推出填补了 AI 物理推理评测领域的空白,为评估大模型在复杂物理场景中的推理能力提供了全新的工具和视角。它不仅揭示了当前大语言模型在物理推理方面的局限性,还为未来模型的改进提供了宝贵的数据和分析方向。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。