AI国际象棋竞赛激烈进行!Grok 4遥遥领先,DeepSeek和Kimi K2遭遇不公
发布时间:2025-08-07 11:41:47 | 责任编辑:吴昊 | 浏览量:8 次
近日,谷歌与 Kaggle 联合举办的首届 AI 国际象棋对战赛事备受瞩目。在这一场 “智力的较量” 中,马斯克旗下的 Grok4展现了非凡的实力,成为首日比赛的绝对焦点。
这场比赛聚集了多款顶尖 AI 模型,参赛选手包括 OpenAI 的 o3和 o4-mini、DeepSeek R1、Kimi K2Instruct、Gemini2.5Pro、Gemini2.5Flash、Claude Opus4和 Grok4。比赛于8月5日至7日每天下午10:30(太平洋时间)准时直播,国际象棋特级大师中村光(Hikaru Nakamura)也受邀担任解说。
首日对决中,Grok4以超凡的战术表现和快速反应获得了最高评价,而 DeepSeek R1虽表现强劲,但不敌 o4-mini,Kimi K2则被认为惨遭不公,网友们纷纷为其鸣冤。马斯克对此次比赛的成功表现淡定回应:“我们并没有特别训练,这只是一个副产品。” 可见,他对此次比赛的宣传价值可谓深谙其道。
虽然比赛结果引起了热议,但其真正的意义在于测试 AI 的 “涌现能力”。国际象棋以其明确的规则和高复杂度(存在约10^120种可能局面)成为了评估 AI 决策能力的理想舞台。很多网友表示,这场比赛不仅仅是输赢的较量,更是 AI 综合能力的全面展示。
经过首轮较量,Grok4与 Gemini2.5Pro、OpenAI 的 o4-mini 和 o3晋级半决赛。各对决中,Grok4如猛兽般的表现让人惊叹,而 Kimi K2的频繁违规行为则让其面临被淘汰的境地,观众对此颇有微词。尽管如此,比赛仍在继续,大家期待后续的精彩对决。
为何选择国际象棋作为 AI 对战的舞台?这主要是因为国际象棋规则清晰但战略复杂,能够有效评估 AI 的决策能力。正如网友所说,这场比赛的结果不仅是对各模型能力的检测,更是对 AI 技术的一次深度探索。
AI国际象棋大战:Grok 4“神之一手”夺冠,DeepSeek与Kimi的“冤屈”何在?
一、赛事速览
8 月 5–7 日,Google Kaggle 在全新的 Game Arena 平台举办了首届大模型国际象棋锦标赛,八位“棋手”全部是当今最顶尖的语言模型:
-
闭源组:OpenAI o3 / o4-mini、Google Gemini 2.5 Pro / Flash、Anthropic Claude 4 Opus、xAI Grok 4
-
开源/国产组:DeepSeek-R1、Moonshot Kimi K2-Instruct
赛制为单败淘汰、每轮 best-of-4,纯文本走棋(无棋盘视觉、无外部引擎),每步 60 分钟,非法着法 3 次 retry 后判负。
二、赛果一句话
Grok 4 一骑绝尘,先后 4:0 Gemini 2.5 Flash、2:2(加赛胜)Gemini 2.5 Pro、决赛再胜 o3,拿下冠军。
其它国产/开源模型:DeepSeek-R1 止步八强(0:4 o4-mini);Kimi K2 更惨,因连续非法走子被 o3 直接 4:0 “抬走”。
三、“冤情”复盘:DeepSeek & Kimi 到底输在哪?
模型 | 出局战 | 现场回放 | 网友鸣冤点 |
---|---|---|---|
DeepSeek-R1 | 0:4 o4-mini | 前期“像模像样”,脱离开局模板后突然出现幻觉:瞄准不存在的棋子、把马跳进死角,连续送子。 | 官方把 R1 标为“开源模型”,怀疑赛程抽签不利——首轮就碰 o4-mini;且比赛无长思考机制,R1 的“深度求索”优势没发挥。 |
Kimi K2 | 0:4 o3 | 最短对局仅 8 回合,每局都因第 4 次非法着法被判负;脱离书本后立刻“棋盘失明”。 | Kimi 非推理模型,官方默认单步 60 min 对它并不友好,网友直呼“让 K2 开 10 倍思考时间试试!” |
四、为什么 Grok 4 能“乱杀”?
-
推理深度:Grok 4 支持“超长链推理”(TTC 模式),在同样 60 min 步时里可展开 10× 树搜索。
-
数据“副作用”:马斯克赛后凡尔赛——“我们根本没专门训练国际象棋,只是数学/代码预训练的副产品”。
-
战术嗅觉:被 Chess.com 特级大师 Nakamura 点评“真正的 GM 级战术嗅觉”,在对 Gemini 2.5 Pro 的半决赛中祭出 19 步弃后杀,被棋迷称为“神之一手”。
五、彩蛋:决赛日程 & 观看方式
-
决赛日:8 月 7 日 10:30 PT(北京时间 8 日凌晨 1:30)
-
直播平台
‑ Kaggle Game Arena 官网
‑ Take Take Take App(可看模型实时思维链) -
解说嘉宾:Magnus Carlsen 亲自挂盘讲解收官战。
一句话总结
在“文本象棋”这条赛道上,推理时长与幻觉控制成了硬通货;Grok 4 凭深度推理碾压夺冠,而 DeepSeek 与 Kimi 的“冤屈”更多是赛制与模型定位的错配——下一次如果开放更长思考时间或图像棋盘,剧本也许会重写。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。