首页 > 快讯 > 一周数据干翻七年苦练?微软模型WHAMM实时生成《雷神之锤II》可玩Demo

一周数据干翻七年苦练?微软模型WHAMM实时生成《雷神之锤II》可玩Demo

发布时间:2025-04-07 10:14:23 | 责任编辑:字母汇 | 浏览量:29 次

近日,科技巨头微软公开了一项引人注目的研究项目——WHAMM(World and Human Action MaskGIT Model)。这是一个创新的人工智能模型,能够完全在AI模型内部生成并运行经典游戏《雷神之锤II》,实时呈现可供玩家操作的游戏版本。这项研究隶属于微软的Co pil ot Labs,旨在探索生成式AI在互动媒体领域的潜力与边界。
颠覆传统:AI模型直接生成可玩游戏
与以往的游戏AI主要集中在控制游戏角色或生成游戏内容片段不同,WHAMM的独特之处在于它能够从零开始生成整个游戏环境和动态过程,并且能够响应玩家的实时操作。这意味着玩家可以直接与由AI模型“想象”出来的《雷神之锤II》世界进行互动,例如移动、跳跃、射击和放置物体。这款AI生成的演示版本还能够保存玩家对环境所做的改变,并允许探索隐藏区域。
WHAMM是微软“Muse”模型家族的一员,该家族专注于为游戏开发提供生成式AI工具。此前的版本WHAM-1.6B曾被训练用于游戏《Bleeding Edge》,但性能仅为每秒约一帧。WHAMM在性能上实现了显著飞跃,能够生成每秒超过十帧的画面,足以支持模型内部的实时互动。
技术突破:更少数据,更快生成
WHAMM的成功得益于两项关键的技术创新:大幅减少的训练数据和全新的技术策略。相比WHAM-1.6B使用了长达七年的游戏数据进行训练,WHAMM仅需一周从单个关卡收集的《雷神之锤II》游戏数据。这些由专业测试人员记录的数据提供了高质量、有针对性的游戏行为示例,使得模型能够更高效地学习。
在技术策略上,WHAMM摒弃了WHAM-1.6B所采用的自回归方法(逐个生成图像标记),转而采用MaskGIT策略。这种方法允许模型在多次迭代中并行生成所有图像标记。这一改变显著提升了生成速度,并且输出分辨率也从300×180像素提高到了640×360像素。
WHAMM系统的工作流程分为三个阶段:首先,使用ViT-VQGAN将图像转换为标记;然后,一个拥有约5亿参数的“骨干”Transformer根据上下文预测接下来会发生什么;最后,一个拥有2.5亿参数的较小“细化”模块通过多次迭代改进预测的图像标记。为了生成新的帧,模型会使用前九个图像-动作对作为上下文。
局限犹存:探索AI游戏开发的未来方向
尽管WHAMM展示了令人兴奋的潜力,但它并非完美地复刻了原始的《雷神之锤II》。由于训练数据集的限制,模型生成的环境是近似的,导致了一些技术上的不足。例如,敌方角色看起来较为模糊,战斗缺乏真实感,且生命值指示不可靠。此外,如果物体在屏幕外停留超过0.9秒(模型的上下文窗口限制),就会消失。可玩区域仅限于关卡的某个片段,一旦到达该区域的终点,模拟就会停止。同时,输入延迟仍然较高,玩家的操作和系统响应之间存在明显的延迟。
微软将WHAMM视为未来AI辅助游戏开发的一个实验性基础。它也代表了当前探索如何将生成式AI应用于游戏开发的众多新兴工具之一。其他类似的尝试包括GameGen-O(专注于生成开放世界模拟)、以及谷歌和Deepmind的GameNGen和DIAMOND(用于模拟《DOOM》和《反恐精英》等游戏)。这些模型虽然取得了显著进展,但仍然面临着低分辨率输出、有限的内存和上下文感知等技术限制。
游戏产业拥抱AI:降本增效的潜力
游戏产业尤其容易接纳生成式AI,因为它融合了代码、设计、故事叙述和多媒体等多个学科,且开发周期常常受到预算和时间限制。这种创意复杂性和资源压力的结合,使得游戏制作特别容易接受能够部分自动化结构化任务的工具。
总结
微软发布的WHAMM模型通过在AI模型内部实时生成可玩的《雷神之锤II》演示,展示了生成式AI在互动娱乐领域的巨大潜力。尽管目前仍存在一些局限性,但WHAMM的技术突破,例如更高效的数据学习和并行的图像生成策略,为未来AI驱动的游戏开发开辟了新的道路。

一周数据干翻七年苦练?微软模型WHAMM实时生成《雷神之锤II》可玩Demo

微软最近公布了一项引人注目的研究项目——WHAMM(World and Human Action MaskGIT Model),这是一个创新的人工智能模型,能够完全在AI模型内部生成并运行经典游戏《雷神之锤II》,实时呈现可供玩家操作的游戏版本。这项研究隶属于微软的Copilot Labs,旨在探索生成式AI在互动媒体领域的潜力与边界。

WHAMM模型的核心亮点

  • 实时生成可玩的游戏体验:与以往的游戏AI主要集中在控制游戏角色或生成游戏内容片段不同,WHAMM的独特之处在于它能够从零开始生成整个游戏环境和动态过程,并且能够响应玩家的实时操作。
  • 高效的数据学习能力:WHAMM的成功得益于两项关键的技术创新:大幅减少的训练数据和全新的技术策略。相比WHAM-1.6B使用了长达七年的游戏数据进行训练,WHAMM仅需一周从单个关卡收集的《雷神之锤II》游戏数据。
  • 并行图像生成策略:在技术策略上,WHAMM摒弃了WHAM-1.6B所采用的自回归方法(逐个生成图像标记),转而采用MaskGIT策略。这种方法允许模型在多次迭代中并行生成所有图像标记。
  • 输出分辨率的提升:WHAMM的输出分辨率也从300×180像素提高到了640×360像素。
  • 系统工作流程的创新:WHAMM系统的工作流程分为三个阶段:首先,使用ViT-VQGAN将图像转换为标记;然后,一个拥有约5亿参数的“骨干”Transformer根据上下文预测接下来会发生什么;最后,一个拥有2.5亿参数的较小“细化”模块通过多次迭代改进预测的图像标记。

WHAMM模型的实验结果

  • 性能的显著飞跃:WHAMM在性能上实现了显著飞跃,能够生成每秒超过十帧的画面,足以支持模型内部的实时互动。
  • 游戏体验的局限性:尽管WHAMM展示了令人兴奋的潜力,但它并非完美地复刻了原始的《雷神之锤II》。由于训练数据集的限制,模型生成的环境是近似的,导致了一些技术上的不足。
  • 敌方角色的模糊表现:例如,敌方角色看起来较为模糊,战斗缺乏真实感,且生命值指示不可靠。
  • 物体消失的问题:如果物体在屏幕外停留超过0.9秒(模型的上下文窗口限制),就会消失。
  • 可玩区域的限制:可玩区域仅限于关卡的某个片段,一旦到达该区域的终点,模拟就会停止。
  • 输入延迟的问题:同时,输入延迟仍然较高,玩家的操作和系统响应之间存在明显的延迟。

WHAMM模型的未来展望

  • AI辅助游戏开发的实验性基础:微软将WHAMM视为未来AI辅助游戏开发的一个实验性基础。它也代表了当前探索如何将生成式AI应用于游戏开发的众多新兴工具之一。
  • 游戏产业的接纳:游戏产业尤其容易接纳生成式AI,因为它融合了代码、设计、故事叙述和多媒体等多个学科,且开发周期常常受到预算和时间限制。
  • 降本增效的潜力:这种创意复杂性和资源压力的结合,使得游戏制作特别容易接受能够部分自动化结构化任务的工具。

WHAMM模型与其他模型的比较

  • GameGen-O:专注于生成开放世界模拟。
  • GameNGen和DIAMOND:谷歌和Deepmind的系统,用于模拟《DOOM》和《反恐精英》等游戏。
  • WHAM-1.6B:此前的版本,曾被训练用于游戏《Bleeding Edge》,但性能仅为每秒约一帧。

结论

微软发布的WHAMM模型通过在AI模型内部实时生成可玩的《雷神之锤II》演示,展示了生成式AI在互动娱乐领域的巨大潜力。尽管目前仍存在一些局限性,但WHAMM的技术突破,例如更高效的数据学习和并行的图像生成策略,为未来AI驱动的游戏开发开辟了新的道路。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具