Skywork AI 推出 Matrix-Game 3.0,实现 720p 40fps 实时高清“世界生成”新突破在 AI 交互
发布时间:2026-04-14 15:11:28 | 责任编辑:张毅 | 浏览量:3 次
Skywork AI 团队近日发布技术报告,宣布在交互式世界模型领域取得重大突破。其最新研发的 Matrix-Game3.0 系统,首次在 720p 高清分辨率下实现了每秒40帧(FPS) 的实时视频生成速度,并成功解决了 AI 视频生成中长期存在的“长效记忆”缺失问题。
长期以来,AI 视频生成模型在处理长序列互动时,常因缺乏有效记忆而出现空间结构错乱或风格漂移。Matrix-Game3.0通过引入相机感知的记忆检索机制打破了这一瓶颈。
该系统不仅能根据当前的相机姿态精准检索历史画面,还采用了统一的自注意力架构,将远期记忆、近期历史与当前预测帧置于同一空间进行联合建模。实验证明,即使在长达数分钟的复杂交互中,系统依然能保持极高的时空一致性,确保用户在“故地重游”时,场景细节与最初生成的画面高度吻合。
为了让 AI 深刻理解真实世界的物理逻辑,研发团队构建了一套规模庞大的“数据工厂”:
虚拟现实同步生成: 利用虚幻引擎5(UE5)开发了 Unreal-Gen 平台,可全自动生成包含超过1亿种角色组合的电影级交互视频。
3A 大作自动化采集: 系统支持从《侠盗猎车手5》、《赛博朋克2077》等顶级游戏中大规模自动录制高质量的交互数据。
多维真实场景补充: 整合了超过10,000个真实世界的4K 序列,涵盖室内、城市及航拍等多样化场景。
为满足实时交互对超低延迟的要求,Matrix-Game3.0在推理架构上进行了深度优化。团队采用了多段自回归蒸馏策略,并结合了 VAE 解码器剪枝技术(剪枝率高达75%),使解码速度提升了5倍以上。此外,通过 INT8量化等手段,系统进一步压低了计算开销,确保在5B 参数规模下依然能流畅运行。
除了5B 版本,团队还展示了参数规模达 28B 的 MoE 模型。随着模型规模的提升,AI 在动态模拟、场景过渡以及通用泛化能力上表现出更强的生命力。
业内专家指出,Matrix-Game3.0的问世为机器人训练、XR 扩展现实以及下一代沉浸式娱乐提供了关键的技术底座。这标志着 AI 从简单的“生成片段”进化到了“实时构建可交互世界”的新阶段。
论文地址:https://arxiv.org/pdf/2604.08995
这是一篇关于AI 交互新突破:Skywork AI 发布 Matrix-Game 3.0,实现 720p 40 帧实时高清“世界生成”的文章,内容值得关注。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
