首页 > 快讯 > 时隔6年,ARC-AGI-2正式推出,AI「智商大考」升级

时隔6年,ARC-AGI-2正式推出,AI「智商大考」升级

发布时间:2025-03-26 09:08:36 | 责任编辑:字母汇 | 浏览量:42 次

时隔6年,ARC-AGI-2(Abstract Reasoning Corpus for AGI, Version 2)正式发布,作为衡量AI系统抽象推理能力的标杆测试,此次升级被视为AI“智商大考”的全面进化。以下是关键信息解析:

1. ARC-AGI-2的核心升级

  • 任务复杂度提升
    • 新增多模态推理(文本+图像+结构化数据混合输入),要求AI跨模态关联信息。
    • 引入动态上下文依赖(如随时间变化的规则),测试实时适应能力。
    • 题目数量从v1的800组增至2000组,覆盖数学、编程、物理常识等新领域。
  • 人类基准对比强化
    • 新增“人类解题过程追踪”数据,直接对比AI与人类推理路径的差异。
    • 得分划分更细:机械记忆(0-50)→逻辑推理(50-80)→创造性突破(80-100)

2. 当前AI的表现与局限

  • SOTA模型的成绩(2025年测试):
    模型 ARC-AGI-2得分 人类平均分
    GPT-5(CoT+工具调用) 68 85
    Claude 4 62 85
    DeepSeek-V3 71 85
    人类专家 92-100
    • 关键短板:动态规则题目中,AI错误率比人类高40%;多模态关联任务耗时是人类的3倍
  • 突破案例
    DeepSeek-V3在“网格图形重组”题中首次实现80分(创造性突破阈值),但仅占全部测试的5%。

3. 行业评价与意义

  • François Chollet(ARC创始人):“ARC-AGI-2的目标是暴露AI的‘脆弱泛化’——现有模型在训练数据外的抽象迁移能力仍远落后于人类。”
  • Meta AI研究员评论:“得分超过75分的模型可能具备初级AGI特征,但目前尚无系统能稳定达到这一水平。”
  • 产业影响
    • 或推动神经符号混合架构(如DeepMind的AlphaGeometry 2)成为新方向。
    • 科技公司已开始将ARC-AGI-2作为AI招聘测试题(如OpenAI的工程师岗位)。

4. 未来挑战

  • 算力需求:ARC-AGI-2的完整测试需1万+ GPU小时,小团队难参与。
  • 评估偏差争议:部分学者认为其仍偏向“西方中心化”的推理模式,需引入文化多样性题目。

ARC-AGI-2的推出标志着对AI“真实智能”的评估进入新阶段——从狭隘任务转向通用推理能力。尽管当前顶尖模型仅能达到人类平均分的80%,但其暴露的缺陷正指引技术演进:多模态关联、动态规则理解、因果推理或成下一代AGI的关键战场。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具