首页 > 快讯 > 时隔6年,ARC-AGI-2正式推出,AI「智商大考」升级
时隔6年,ARC-AGI-2正式推出,AI「智商大考」升级
发布时间:2025-03-26 09:08:36 | 责任编辑:字母汇 | 浏览量:42 次
时隔6年,ARC-AGI-2(Abstract Reasoning Corpus for AGI, Version 2)正式发布,作为衡量AI系统抽象推理能力的标杆测试,此次升级被视为AI“智商大考”的全面进化。以下是关键信息解析:
1. ARC-AGI-2的核心升级
- 任务复杂度提升:
- 新增多模态推理(文本+图像+结构化数据混合输入),要求AI跨模态关联信息。
- 引入动态上下文依赖(如随时间变化的规则),测试实时适应能力。
- 题目数量从v1的800组增至2000组,覆盖数学、编程、物理常识等新领域。
- 人类基准对比强化:
- 新增“人类解题过程追踪”数据,直接对比AI与人类推理路径的差异。
- 得分划分更细:机械记忆(0-50)→逻辑推理(50-80)→创造性突破(80-100)。
2. 当前AI的表现与局限
- SOTA模型的成绩(2025年测试):
模型 ARC-AGI-2得分 人类平均分 GPT-5(CoT+工具调用) 68 85 Claude 4 62 85 DeepSeek-V3 71 85 人类专家 92-100 — - 关键短板:动态规则题目中,AI错误率比人类高40%;多模态关联任务耗时是人类的3倍。
- 突破案例:
DeepSeek-V3在“网格图形重组”题中首次实现80分(创造性突破阈值),但仅占全部测试的5%。
3. 行业评价与意义
- François Chollet(ARC创始人):“ARC-AGI-2的目标是暴露AI的‘脆弱泛化’——现有模型在训练数据外的抽象迁移能力仍远落后于人类。”
- Meta AI研究员评论:“得分超过75分的模型可能具备初级AGI特征,但目前尚无系统能稳定达到这一水平。”
- 产业影响:
- 或推动神经符号混合架构(如DeepMind的AlphaGeometry 2)成为新方向。
- 科技公司已开始将ARC-AGI-2作为AI招聘测试题(如OpenAI的工程师岗位)。
4. 未来挑战
- 算力需求:ARC-AGI-2的完整测试需1万+ GPU小时,小团队难参与。
- 评估偏差争议:部分学者认为其仍偏向“西方中心化”的推理模式,需引入文化多样性题目。
ARC-AGI-2的推出标志着对AI“真实智能”的评估进入新阶段——从狭隘任务转向通用推理能力。尽管当前顶尖模型仅能达到人类平均分的80%,但其暴露的缺陷正指引技术演进:多模态关联、动态规则理解、因果推理或成下一代AGI的关键战场。
©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。