发布UGMathBench动态基准测试数据集:用于评估语言模型数学理解力
发布时间:2025-05-10 12:18:31 | 责任编辑:张毅 | 浏览量:5 次
近日,魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集的问世,填补了当前在本科数学领域评估语言模型推理能力的空白,并为研究者提供了更为丰富和具有挑战性的测试平台。
随着人工智能技术的飞速发展,自然语言模型在自动翻译、智能客服、医疗、金融等多个领域展现出巨大潜力。然而,如何准确评估这些模型的性能,尤其是它们的推理能力和解决数学问题的能力,一直是研究者关注的焦点。近年来,虽然已有多个基准测试数据集用于评估语言模型的数学推理能力,但随着模型的快速发展,这些数据集逐渐被攻克,其挑战性逐渐降低。
在此背景下,UGMathBench数据集应运而生。该数据集从在线作业评分系统中精心收集、提取和整理了大量本科数学问题,涵盖了基础算术、单变量微积分、多变量微积分、微分方程、概率等16个科目,共包含5062个题目。与以往数据集不同的是,UGMathBench为每个题目提供了3个不同的随机版本,通过改变数学问题中的数字来产生动态变化的问题,从而更真实地评估语言模型的推理能力。
为了确保评估的准确性和公正性,研究团队还提出了三个关键指标:有效准确率(EAcc)、推理差距(Δ)和稳健性效率(RE)。有效准确率用于衡量语言模型在所有随机版本上都能正确解答的题目比例;推理差距则反映了语言模型在解答不同随机版本题目时的一致性;稳健性效率则进一步捕捉了语言模型在适应相同问题不同随机版本时的能力。
基于UGMathBench数据集,研究团队对23个先进的语言模型进行了全面评估,包括商业闭源模型和开源模型。评估结果显示,即使是具有先进推理能力的语言模型,在UGMathBench数据集上也面临巨大挑战。这一结果不仅揭示了当前语言模型的局限性,也为未来开发具有更高推理能力的语言模型提供了重要参考。
UGMathBench数据集的发布,不仅为语言模型数学推理能力的评估提供了新的工具和方法,也为研究者深入理解语言模型的内在推理逻辑提供了有力支持。目前,该数据集已对外开放下载,研究者和开发者可通过指定链接获取数据集及相关技术报告,进一步探索语言模型在数学推理领域的潜力。
数据集下载地址:
https://www.modelscope.cn/datasets/xinxu02/UGMathBench
https://huggingface.co/datasets/UGMathBench/ugmathbench
技术报告地址:
https://arxiv.org/abs/2501.13766
UGMathBench 是一个动态基准测试数据集,于 2025 年发布,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。
数据集特点
-
覆盖范围广:包含 5062 个问题,涵盖 16 个学科(如基础算术、单变量微积分、多变量微积分、微分方程、概率等)和 111 个主题。
-
动态性:每个问题提供 3 个随机版本,通过改变数学问题中的数字来产生动态变化的问题,从而更真实地评估语言模型的推理能力。
-
答案类型多样:包含 10 种不同的答案类型。
评估指标
-
有效准确率(EAcc):衡量语言模型在所有随机版本上都能正确解答的题目比例。
-
推理差距(Δ):评估语言模型在解答不同随机版本题目时的一致性。
-
稳健性效率(RE):进一步捕捉语言模型在适应相同问题不同随机版本时的能力。
评估结果
-
挑战性强:即使是具有先进推理能力的语言模型(如 OpenAI-o1-mini),在 UGMathBench 中也只能达到 56.3% 的有效准确率(EAcc),而大多数开源语言模型的有效准确率难以达到 30%。
-
推理稳定性不足:平均准确率大于 20% 的语言模型,表现出的推理差距(Δ)超过(或接近)10%。
数据集的发布与应用
-
发布平台:UGMathBench 数据集已对外开放下载,研究者和开发者可通过以下链接获取数据集及相关技术报告:
-
应用价值:该数据集为语言模型数学推理能力的评估提供了新的工具和方法,也为研究者深入理解语言模型的内在推理逻辑提供了有力支持。
UGMathBench 的发布填补了本科数学领域评估语言模型推理能力的空白,为开发具有更高推理能力的语言模型提供了重要参考。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。