首页 > 快讯 > 高考数学竞赛:六款AI技术对决,豆包与元宝荣膺冠军

高考数学竞赛:六款AI技术对决,豆包与元宝荣膺冠军

发布时间:2025-06-09 12:04:15 | 责任编辑:吴昊 | 浏览量:2 次

随着高考的到来,数学考试再一次成为考生们心中的 “魔鬼”。在这场竞争中,六大人工智能模型也参与了挑战,分别是字节的豆包、腾讯的元宝、阿里的通义、百度的文心 X1Turbo、深度求索的 DeepSeek 以及 OpenAI 的 o3。此次测试采用的是2025年新课标 Ⅰ 卷的14道客观题,总分为73分,涵盖了单选题、多选题和填空题。
为了确保测试的公平性,所有模型在答题时都没有系统提示和联网搜索的支持,每个模型只能进行一次答题。经过一番较量,最终结果出乎意料,豆包和元宝同以68分的成绩并列第一,展现了出色的推理能力。相对而言,DeepSeek 和通义则稍显逊色,分别以63分和62分完赛。而文心 X1和 o3的表现则令人失望,尤其是 o3,仅获得34分,显现出对国内高考题目的适应性不足。
在具体题型的表现上,豆包、通义和元宝在单选题的表现颇为亮眼,各自得分35分。DeepSeek 因两道题失误拿下30分,而 o3则惨遭滑铁卢,单选题的得分仅为20分,错了一半的题目。而在多选题方面,豆包、DeepSeek 和元宝均表现完美,三道题全对,展现出强大的稳定性。相对来说,通义的表现虽然快速,但在关键时刻的判断失误也导致得分不理想。
此次测试不仅显示出各大 AI 模型在高考数学上的潜力和不足,也反映了它们在推理能力和反思能力上的进步。相较于去年,这些模型在细节处理、公式应用和逻辑推理上都有显著的提升。尽管仍然存在一些错误和不足,但这次比赛无疑为未来的 AI 数学能力打下了基础。

高考数学竞赛:六款AI技术对决,豆包与元宝荣膺冠军

在2025年高考数学大赛中,六大AI模型展开了一场激烈的比拼,最终豆包和元宝以68分的成绩并列第一。

参赛模型及背景

此次参赛的六大模型包括:

  • 豆包(Seed-Thingking-v1.5):由字节跳动推出,表现优异。

  • 元宝(腾讯混元T1):腾讯推出的模型,与豆包并列第一。

  • DeepSeek R1:由深度求索推出,在此次比赛中表现也不错,但稍逊于豆包和元宝。

  • 通义千问(Qwen3-235B-A22B):阿里的模型,表现较为稳健。

  • 文心一言(X1 Turbo):百度的模型,成绩相对逊色。

  • OpenAI o3:国际知名模型,但在此次比赛中表现不佳,仅得34分。

比赛结果

  • 豆包和元宝:以68分并列第一。

  • DeepSeek R1:得分63分。

  • 通义千问:得分62分。

  • 文心一言:得分51分。

  • OpenAI o3:得分34分,排名垫底。

表现分析

  • 豆包和元宝:在代数、几何和概率统计等模块表现出色,逻辑清晰,推理能力强。

  • DeepSeek R1:虽然在数学能力上有一定表现,但在OCR识别和推理速度上存在短板。

  • 通义千问:在解析几何题型上表现稳健,但整体得分稍逊于豆包和元宝。

  • 文心一言:在多选题和填空题上表现不佳,正确率较低。

  • OpenAI o3:在数学相关数据训练和推理能力上存在不足,导致成绩不佳。

此次比赛不仅展示了AI模型在数学领域的潜力,也暴露了部分模型在特定任务上的不足。未来,随着技术的不断进步,AI在教育领域的应用将更加广泛。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复