首页 > 快讯 > DeepMind 发起 AI “面对面游戏夜”:Gemini3系列在扑克与狼人杀排行榜上大展身手

DeepMind 发起 AI “面对面游戏夜”:Gemini3系列在扑克与狼人杀排行榜上大展身手

发布时间:2026-02-04 10:33:41 | 责任编辑:吴昊 | 浏览量:1 次

谷歌 DeepMind 联合 Kaggle 近日宣布对其公开基准测试平台 Game Arena(游戏竞技场)进行重大升级,正式引入“狼人杀”(Werewolf)与“扑克”(Poker)两款经典策略游戏。此举标志着 AI 性能评估已从单纯的逻辑运算(如国际象棋)向复杂的社交推理与不确定决策跨越。
DeepMind 认为,传统测试已难以区分顶尖模型的细微差距。新加入的游戏旨在从不同维度极限测试 AI 的认知能力:
狼人杀: 侧重评估模型的沟通技巧、语言说服力以及识破/利用谎言的社交感应能力。
扑克: 模拟真实世界的复杂决策,测试模型在面对不完整信息和风险管理时的博弈能力。
国际象棋: 继续作为衡量纯粹逻辑思维与长程规划的基础指标。
根据最新公布的 Elo 排名,谷歌新一代模型 Gemini3Pro 与 Gemini3Flash 展现出统治级实力,在所有棋类与策略游戏中均位列第一梯队。令人意外的是,轻量级的 Flash 模型在某些需要快速迭代和即时反馈的博弈场景中表现尤为出色,而 Pro 模型则在深度规划上保持领先。
除了性能展示,DeepMind 还强调了“狼人杀”基准测试在 AI 安全领域的潜力。该场景模拟了现实中的操纵行为检测,让模型在受控、无实际后果的环境中学习识别恶意引导。谷歌 DeepMind 首席执行官 Demis Hassabis 对此表示,随着模型能力的指数级增长,行业亟需此类更具挑战性、更贴近现实动态的“压力测试”。
目前,Game Arena 已在 Kaggle 平台开放,开发者可实时观察全球顶尖模型在这些高压社交博弈中的表现。

DeepMind 发起 AI “面对面游戏夜”:Gemini3系列在扑克与狼人杀排行榜上大展身手

这是一篇关于DeepMind 开设 AI “线下桌游局”:Gemini3家族横扫扑克与狼人杀排行榜的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐