首页 > 快讯 > 时隔6年，ARC-AGI-2正式推出，AI「智商大考」升级

时隔6年，ARC-AGI-2正式推出，AI「智商大考」升级

发布时间：2025-03-26 09:08:36 | 责任编辑：字母汇 | 浏览量：166 次

时隔6年，ARC-AGI-2（Abstract Reasoning Corpus for AGI, Version 2）正式发布，作为衡量AI系统抽象推理能力的标杆测试，此次升级被视为AI“智商大考”的全面进化。以下是关键信息解析：

1. ARC-AGI-2的核心升级

任务复杂度提升：
- 新增多模态推理（文本+图像+结构化数据混合输入），要求AI跨模态关联信息。
- 引入动态上下文依赖（如随时间变化的规则），测试实时适应能力。
- 题目数量从v1的800组增至2000组，覆盖数学、编程、物理常识等新领域。
人类基准对比强化：
- 新增“人类解题过程追踪”数据，直接对比AI与人类推理路径的差异。
- 得分划分更细：机械记忆（0-50）→逻辑推理（50-80）→创造性突破（80-100）。

2. 当前AI的表现与局限

SOTA模型的成绩（2025年测试）：

模型 ARC-AGI-2得分人类平均分

GPT-5（CoT+工具调用） 68 85

Claude 4 62 85

DeepSeek-V3 71 85

人类专家 92-100 —
- 关键短板：动态规则题目中，AI错误率比人类高40%；多模态关联任务耗时是人类的3倍。
突破案例：
DeepSeek-V3在“网格图形重组”题中首次实现80分（创造性突破阈值），但仅占全部测试的5%。

模型	ARC-AGI-2得分	人类平均分
GPT-5（CoT+工具调用）	68	85
Claude 4	62	85
DeepSeek-V3	71	85
人类专家	92-100	—

3. 行业评价与意义

François Chollet（ARC创始人）：“ARC-AGI-2的目标是暴露AI的‘脆弱泛化’——现有模型在训练数据外的抽象迁移能力仍远落后于人类。”
Meta AI研究员评论：“得分超过75分的模型可能具备初级AGI特征，但目前尚无系统能稳定达到这一水平。”
产业影响：
- 或推动神经符号混合架构（如DeepMind的AlphaGeometry 2）成为新方向。
- 科技公司已开始将ARC-AGI-2作为AI招聘测试题（如OpenAI的工程师岗位）。

4. 未来挑战

算力需求：ARC-AGI-2的完整测试需1万+ GPU小时，小团队难参与。
评估偏差争议：部分学者认为其仍偏向“西方中心化”的推理模式，需引入文化多样性题目。

ARC-AGI-2的推出标志着对AI“真实智能”的评估进入新阶段——从狭隘任务转向通用推理能力。尽管当前顶尖模型仅能达到人类平均分的80%，但其暴露的缺陷正指引技术演进：多模态关联、动态规则理解、因果推理或成下一代AGI的关键战场。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。