首页 > 快讯 > AI“智商”大考变革！全新GAIA基准超越 ARC-AGI

AI“智商”大考变革！全新GAIA基准超越 ARC-AGI

发布时间：2025-04-14 10:58:39 | 责任编辑：字母汇 | 浏览量：252 次

人工智能（AI）的能力正在飞速发展，如何准确衡量其“智能”程度一直是行业关注的焦点。然而，正如衡量人类智力一样，AI智能的测评也并非易事，现有的测试和基准往往只能提供近似的评估。近年来，随着AI模型日益复杂，传统基准的局限性日益凸显，促使行业积极探索更全面、更能反映实际应用能力的新型评估体系。
长期以来，生成式AI社区依赖诸如MMLU（大规模多任务语言理解）等基准来评估模型能力。这类基准通常采用多项选择题形式，覆盖多个学术领域，便于进行直接比较。然而，这种形式被认为难以真正捕捉AI的智能能力。例如，一些模型在MMLU上取得了相似的分数，但在实际应用中的表现却存在显著差异，这表明纸面上的高分并不能完全代表真实的能力。
此外，即使是像大学入学考试这样的基准，其高分也并不意味着考生拥有相同的智力水平，或者智力已经达到了极限，这进一步说明了基准只是能力的近似衡量，而非精确度量。更令人担忧的是，一些先进的模型在看似简单的任务上也会出现“低级错误”，例如无法正确数出单词中的特定字母，或者在比较小数大小时出错。这些案例暴露了传统基准驱动的进步与AI在现实世界中的可靠性之间的脱节。
面对传统基准的不足，AI行业正在积极探索新的评估框架。近期发布的ARC-AGI基准旨在推动模型向通用推理和创造性问题解决能力发展，受到了业界的欢迎。另一项引人注目的新基准是“人类最后考试”，它包含了3000道同行评审的多步骤问题，涵盖多个学科，试图在专家级推理上挑战AI系统。早期结果显示，OpenAI的模型在该测试发布一个月内就取得了26.6%的成绩，展现了AI的快速进步。
然而，与传统基准类似，“人类最后考试”主要在孤立的环境中评估知识和推理能力，而忽略了实际应用中日益重要的工具使用能力。GPT-4在配备工具的情况下，在更复杂的GAIA基准上仅取得了约15%的成绩，这进一步印证了传统基准与实际能力之间的差距。
为了弥补传统基准的缺陷，行业推出了更贴近现实应用的GAIA基准。GAIA由Meta-FAIR、Meta-GenAI、HuggingFace和AutoGPT团队合作创建，包含466个精心设计的问题，分为三个难度级别。这些问题全面测试了AI的网络浏览、多模态理解、代码执行、文件处理和复杂推理等关键能力，这些都是AI在现实商业应用中不可或缺的。
GAIA基准的问题设计模拟了实际业务问题的复杂性。Level1的问题需要大约5个步骤和一个工具来解决，Level2需要5到10个步骤和多个工具，而Level3的问题则可能需要多达50个离散步骤和任意数量的工具。这种结构更真实地反映了现实世界中解决问题往往需要多个步骤和工具协同工作的特点。
GAIA基准的早期结果显示，一个注重灵活性的AI模型取得了75%的准确率，超越了微软的Magnetic-1（38%）和谷歌的Langfun Agent(49%)。该模型的成功归功于其采用了结合音频-视觉理解和推理的专用模型，并以Anthropic的Sonnet3.5作为主要模型。
GAIA的出现反映了AI评估领域的一个更广泛的转变:我们正从评估独立的软件即服务（SaaS）应用转向评估能够协调多个工具和工作流程的AI智能体。随着企业越来越依赖AI系统处理复杂的、多步骤的任务，像GAIA这样的基准能够提供比传统多项选择题更具实际意义的能力衡量。
基准入口：

AI“智商”大考变革！全新GAIA基准超越 ARC-AGI-项目/模型网址:
Hugging Face

GAIA和ARC-AGI是两种不同的AI基准测试，以下是它们的对比：

测试内容

GAIA：侧重于评估AI在解决现实世界复杂任务中的能力，包括信息检索、多模态理解、代码执行、文件处理和复杂推理等。其测试内容涵盖了数百个挑战，需要AI进行繁琐的研究、数据分析、文档处理和推理，更贴近实际应用场景。
ARC-AGI：主要测试AI的流体智力、符号解释、组合推理和上下文规则应用等能力，通过视觉模式识别、上下文线索和推理来解决类似谜题的问题。

难度与评分

GAIA：目前H2O.ai的h2oGPTe Agent在GAIA基准排行榜上取得了65%的最高分，而谷歌Langfun Agent为49%，微软研究为38%，Hugging Face为33%。
ARC-AGI：ARC-AGI-2是ARC-AGI的升级版，难度更高。目前，即使是性能最好的AI模型如OpenAI的o3，在ARC-AGI-2上的得分也只有4%，而人类在该测试中的平均得分为60%。

效率考量

GAIA：更注重AI在实际应用中的效率和适应性，但未明确将成本作为主要衡量指标。
ARC-AGI：ARC-AGI-2引入了效率作为关键指标，要求AI在有限的计算成本内完成任务。例如，人类完成ARC-AGI-2任务的成本为每项任务17美元，而OpenAI的o3完成任务的成本高达每项200美元。

适用场景

GAIA：更适合用于评估AI在商业和研究领域中处理复杂任务的能力，如企业级应用中需要AI进行多步骤、多工具协同的场景。
ARC-AGI：更侧重于研究AI的通用智能和适应性，适用于推动AI在更广泛领域的发展，特别是在需要AI快速适应新问题和新环境的场景。

行业影响

GAIA：推动AI行业从单一的SaaS应用向能够协调多种工具和工作流程的AI代理转变，为AI在复杂任务中的应用提供了新的衡量标准。
ARC-AGI：通过挑战AI的推理和适应能力，激励研究人员探索新的技术和方法，以实现更高效、更具适应性的通用智能。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。