首页 > 快讯 > 从单张图片创建可探索的3D环境！NVIDIA发布Lyra 2.0开源，攻克长视频“空间记忆”与“时序偏移”挑战

从单张图片创建可探索的3D环境！NVIDIA发布Lyra 2.0开源，攻克长视频“空间记忆”与“时序偏移”挑战

发布时间：2026-04-20 11:40:19 | 责任编辑：吴昊 | 浏览量：53 次

NVIDIA Research 近日在 Hugging Face 平台正式发布Lyra2.0框架，这一开源项目标志着 AI 生成式3D 世界构建技术迈向新高度。从单张输入图像出发，Lyra2.0能够生成持久一致、可自由探索的大型3D 场景，支持实时渲染、机器人仿真和沉浸式应用。
小编编辑认为，这一发布不仅提升了视频生成模型的时空一致性，更为物理 AI、游戏开发和虚拟环境构建提供了实用资产管道。
传统长时程视频生成模型在相机长距离移动时，常常出现“空间遗忘”（spatial forgetting）——模型无法记住先前生成区域的细节，导致场景不一致;同时还会产生“时间漂移”（temporal drifting）——物体位置、外观随时间逐渐偏移，严重影响后续3D 重建。
Lyra2.0针对这两大痛点提出创新解决方案:
通过这一两阶段设计，Lyra2.0能够从单张图像和用户定义的相机轨迹出发，迭代生成长序列视频片段，并将其可靠地提升为高质量3D 高斯溅射（3D Gaussian Splatting）或网格模型，支持实时渲染和进一步仿真。
实验显示，Lyra2.0在长视频生成和3D 场景重建指标上超越了 GEN3C、CaM、Yume-1.5等多款现有方法，尤其在场景规模和一致性上表现出色。生成的场景可达数十米范围，用户能自由“走回去”、环顾四周，甚至投放机器人进行实时交互。
Lyra2.0的模型权重已在 Hugging Face（nvidia/Lyra-2.0）开放，代码仓库同步上线 GitHub(nv-tlabs/lyra)，采用 Apache2.0许可，支持商业使用。底层视频骨干基于 Wan-14B 等强大扩散模型，重建阶段结合 Depth Anything V3等工具，确保输出高质量且实用。
这一框架特别适用于:
相比早期版本，Lyra2.0在场景持久性和可扩展性上实现显著飞跃，为“世界模型”从演示走向实用资产铺平道路。
小编编辑点评:NVIDIA 此次开源不仅展示了生成式 AI 在时空建模上的技术突破，更体现了行业向开放生态的持续投入。随着 Lyra2.0等工具的普及，开发者将能更高效地构建大规模、可交互的3D 世界，进而推动机器人、自动驾驶和元宇宙应用的加速落地。
项目页面、论文及模型已全部公开，感兴趣的开发者可立即前往 Hugging Face 和 GitHub 体验。
论文地址:https://huggingface.co/papers/2604.13036
模型地址:https://huggingface.co/nvidia/Lyra-2.0

这是一篇关于单张图片生成可行走 3D 世界！NVIDIA 开源 Lyra 2.0，彻底解决长视频“空间遗忘”和“时间漂移”难题的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：灵光推出全新闪应用系列：赋予每个人专属Coding助手

下一篇：新加坡金融监管部门倡议提升银行网络安全以应对AI模型威胁

从单张图片创建可探索的3D环境！NVIDIA发布Lyra 2.0开源，攻克长视频“空间记忆”与“时序偏移”挑战

最新Ai信息

最新Ai工具

热门AI推荐