首页 > 快讯 > DeepMind 发起 AI “面对面游戏夜”:Gemini3系列在扑克与狼人杀排行榜上大展身手

DeepMind 发起 AI “面对面游戏夜”:Gemini3系列在扑克与狼人杀排行榜上大展身手

发布时间：2026-02-04 10:33:41 | 责任编辑：吴昊 | 浏览量：74 次

谷歌 DeepMind 联合 Kaggle 近日宣布对其公开基准测试平台 Game Arena（游戏竞技场）进行重大升级，正式引入“狼人杀”(Werewolf)与“扑克”(Poker)两款经典策略游戏。此举标志着 AI 性能评估已从单纯的逻辑运算(如国际象棋)向复杂的社交推理与不确定决策跨越。
DeepMind 认为，传统测试已难以区分顶尖模型的细微差距。新加入的游戏旨在从不同维度极限测试 AI 的认知能力:
狼人杀: 侧重评估模型的沟通技巧、语言说服力以及识破/利用谎言的社交感应能力。
扑克: 模拟真实世界的复杂决策，测试模型在面对不完整信息和风险管理时的博弈能力。
国际象棋: 继续作为衡量纯粹逻辑思维与长程规划的基础指标。
根据最新公布的 Elo 排名，谷歌新一代模型 Gemini3Pro 与 Gemini3Flash 展现出统治级实力，在所有棋类与策略游戏中均位列第一梯队。令人意外的是，轻量级的 Flash 模型在某些需要快速迭代和即时反馈的博弈场景中表现尤为出色，而 Pro 模型则在深度规划上保持领先。
除了性能展示，DeepMind 还强调了“狼人杀”基准测试在 AI 安全领域的潜力。该场景模拟了现实中的操纵行为检测，让模型在受控、无实际后果的环境中学习识别恶意引导。谷歌 DeepMind 首席执行官 Demis Hassabis 对此表示，随着模型能力的指数级增长，行业亟需此类更具挑战性、更贴近现实动态的“压力测试”。
目前，Game Arena 已在 Kaggle 平台开放，开发者可实时观察全球顶尖模型在这些高压社交博弈中的表现。

这是一篇关于DeepMind 开设 AI “线下桌游局”:Gemini3家族横扫扑克与狼人杀排行榜的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：昆仑万维推出“天工Skywork桌面上线”：铸就个人计算设备的“顶级AI智慧”

下一篇：国产AI编程服务发布，摩尔线程推动软硬件配合引领开发领域革新

DeepMind 发起 AI “面对面游戏夜”:Gemini3系列在扑克与狼人杀排行榜上大展身手

最新Ai信息

最新Ai工具

热门AI推荐