首页 > 快讯 > 国内团队书写新篇章！在“人类最终挑战”中首破30分记录，AI竞赛热度攀升！

国内团队书写新篇章！在“人类最终挑战”中首破30分记录，AI竞赛热度攀升！

发布时间：2025-07-09 18:21:02 | 责任编辑：吴昊 | 浏览量：108 次

在全球人工智能竞争日益激烈的背景下，上海交通大学与深势科技团队联手，成功在被称为 “人类最后的考试”（HLE）中取得了32.1分的惊人成绩，首次突破30分大关。这一测试集以其超高难度而闻名，曾经没有模型得分能超过10分，甚至在最近，最高得分也仅有26.9分，由 Kimi-Research 和 Gemini Deep Research 并列创造。
这项研究推出了名为 X-Master 的工具增强型推理智能体，以及多智能体工作流系统 X-Masters。这套方案不仅在技术上表现出色，团队还将其开源，进一步推动 AI 领域的合作与发展。
X-Master 的核心理念在于模拟人类研究者解决问题的动态过程，能够在内部推理与外部工具之间无缝切换。当遇到无法解决的问题时，X-Master 会将行动计划编写成代码，通过各种工具（如 NumPy 和 SciPy）执行这些代码，并将结果整合回智能体的知识体系中。这一过程形成了一个高效的反馈循环，使得智能体不断优化推理过程。
X-Masters 的设计则更为复杂，采用分散 - 堆叠式的智能体工作流，能够提升推理的广度和深度。在分散阶段，多个求解器并行工作，生成不同的解决方案，同时由批评者智能体对方案进行评估与改进。接下来，重写器智能体将所有输出汇总成更优方案，最终由选择器智能体选出最佳答案。
在这项测试中，X-Masters 在生物学 / 医学类别的表现也格外突出，超越了现有的智能体系统，显示出其在复杂问题上的强大能力。
“人类最后的考试” 由 AI 安全中心与 Scale AI 于今年初发起，旨在评估 AI 系统的智能水平，题目来自500多家机构的1000多名学者，难度相当高。

近日，国内团队在上海交通大学和深势科技的联合研究中取得了重大突破，在“人类最后的考试”（Humanity’s Last Exam，HLE）上首次得分突破30分，达到了32.1分。这一成绩刷新了该测试的历史记录，此前的最高分是26.9分。

研究成果

该团队推出了工具增强推理智能体X-Master和多智能体工作流系统X-Masters，并将这一方案开源。X-Masters通过分散探索和堆叠选择的方式，显著提升了推理的广度和深度。具体来说：

工具增强推理使基线准确率提高了3.4%；
迭代优化（批评者和重写器）又增加了9.5%；
最终选择（选择器）实现了32.1%的纪录成绩。

测试背景

“人类最后的考试”由AI安全中心和Scale AI发起，于今年年初发布。该测试集题目来自500多家机构的1000多名学者，涵盖数理化、生物医药、工程和社会科学等多种学科，难度极高。此前，包括OpenAI的o1模型在内的众多AI系统，得分均未超过10%。

影响与意义

这一突破不仅展示了国内团队在AI领域的强大实力，也标志着AI竞争进入了一个新的阶段。该成果表明，通过创新的架构和方法，AI系统能够在极其复杂的任务中取得显著进步，为未来AI的发展提供了新的思路和方向。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。