腾讯发布GeometryCrafter:用AI解锁开放世界视频的几何一致性之美
发布时间:2025-04-02 11:36:23 | 责任编辑:字母汇 | 浏览量:16 次
《腾讯发布GeometryCrafter:用AI解锁开放世界视频的几何一致性之美》相关软件

近日,腾讯在人工智能领域再下一城,其研发团队通过Hugging Face平台正式发布了全新AI模型GeometryCrafter。这一模型以其在开放世界视频中实现一致性几何估计的卓越能力,迅速成为科技圈的焦点。借助扩散先验技术(Diffusion Priors),GeometryCrafter不仅为视频内容的深度理解和处理带来了新的可能性,也为创作者和研究者提供了一把探索三维世界的“钥匙”。
GeometryCrafter的核心亮点在于其能够从动态、复杂的开放世界视频中提取并生成一致的几何信息。所谓“开放世界视频”,指的是那些内容多样、场景切换频繁、视角变化丰富的视频素材,例如街头实拍、旅行记录或自然风光纪录片。与传统的静态图像几何估计不同,这类视频对AI模型的时空一致性和泛化能力提出了更高要求。腾讯团队通过将预训练的扩散模型与视频几何估计相结合,成功让GeometryCrafter在无需额外信息(如相机位姿或光流数据)的情况下,生成细腻且连贯的深度序列和几何结构。
据介绍,该模型的研发灵感源于扩散模型在图像生成领域的成功经验。扩散先验技术通过逐步去噪的过程,能够捕捉视频帧间的微妙关联,并将这些信息转化为三维空间的几何表达。无论是城市街道上行人川流不息的动态,还是山川河流间光影交错的自然景观,GeometryCrafter都能以惊艳的精度还原其空间层次。这种能力不仅让视频内容从二维平面“跃然立体”,也为后续的视觉特效、虚拟现实内容生成等应用奠定了坚实基础。
业内专家指出,GeometryCrafter的发布填补了开放世界视频几何估计领域的一项空白。此前,许多模型在处理长序列视频或非受控场景时,往往因缺乏足够的上下文理解而导致结果失真。而GeometryCrafter通过其独特的三阶段训练策略,结合真实与合成数据集,既保留了内容的丰富多样性,又确保了几何细节的精确性。实验结果显示,该模型在多个公开数据集上的表现超越了现有方法,尤其是在保持长时间序列一致性方面,堪称行业标杆。
对于普通用户和创作者而言,GeometryCrafter的意义同样深远。想象一下,家庭录像中的孩子奔跑画面可以通过这一技术被赋予三维深度,甚至被无缝融入虚拟场景;抑或是一个独立电影制作人,利用GeometryCrafter将简单的拍摄素材转化为沉浸式的视觉体验。腾讯此次选择在Hugging Face上开源模型代码和权重,也体现了其推动AI技术普惠化的决心,让更多人能够参与到这一技术的探索与应用中。
当然,GeometryCrafter并非完美无缺。有分析人士提到,其对计算资源的需求可能对普通设备构成挑战,而在极端复杂的场景(如密集人群或快速运动物体)中,模型的性能仍有优化空间。但不可否认的是,这一技术的推出为我们打开了一扇窗,让人们得以窥见AI如何将日常生活的片段转化为充满立体感的数字艺术。
随着GeometryCrafter的亮相,腾讯再次证明了其在AI领域的深厚积累与创新能力。从视频内容的几何重构到跨领域的潜在应用,这款模型不仅是一项技术突破,更是一个温暖的邀请——邀请每一个人用科技的力量,去重新发现和塑造我们身处的这个多彩世界。
论文:https://huggingface.co/papers/2504.01016
模型:https://huggingface.co/TencentARC/GeometryCrafter

腾讯近期推出的 GeometryCrafter 是一款基于 AI 的创新工具,旨在解决开放世界视频生成中的几何一致性问题,使虚拟场景的动态渲染更加真实、连贯。该技术由腾讯 AI Lab 联合多所高校研发,结合了 3D 点云重建、神经渲染和扩散模型 等前沿技术,显著提升了视频生成的空间连续性和物理合理性。
GeometryCrafter 的核心技术突破
- 基于点云的动态场景建模
- 传统方法(如 NeRF、3D-GS)依赖密集多视角数据,而 GeometryCrafter 仅需 单张或稀疏输入图像,即可通过快速多视图立体技术(MVS)重建 3D 点云,并支持 6 自由度的相机位姿控制。
- 该技术克服了点云渲染中的 遮挡、几何失真 问题,通过 增强渲染器 生成高保真、一致性的新视角视频。
- 视频扩散模型 + 几何先验的结合
- 传统视频扩散模型(如 Stable Video Diffusion)缺乏显式 3D 信息,导致视角切换时出现 物体形变、光影不连贯。
- GeometryCrafter 引入 点云控制信号,指导 AI 生成符合物理规律的动态视频,确保物体在不同视角下保持几何一致性。
- 长视频生成与自适应相机轨迹规划
- 采用 迭代式生成策略,逐步扩展新视角覆盖范围,并优化点云重建质量,支持 动态 4D 场景重建(如云、水流等自然现象)。
- 相比传统方法,其生成的长视频(如 30 秒以上)在 Tanks-and-Temples、CO3D 等数据集 上表现更优。
应用场景
- 游戏开发:自动生成开放世界的动态环境(如天气变化、建筑破坏效果),减少人工建模成本。
- 影视特效:从单张概念图生成多视角 3D 场景,加速虚拟制片流程。
- 虚拟现实(VR):提供更真实的沉浸式体验,如自由视角漫游、交互式 3D 内容生成。
行业影响与未来方向
- 降低 3D 内容创作门槛:类似 ViewCrafter(北大/腾讯开源工具),GeometryCrafter 让非专业用户也能生成高质量 3D 视频。
- 与腾讯生态整合:可能接入 GameGen-O(AI 游戏生成系统),进一步优化开放世界游戏的自动生成。
- 挑战:仍需优化复杂动态物体(如人物动作)的物理模拟,并探索 实时渲染 方案。
腾讯此次发布标志着 AI 在 3D 视觉生成 领域的又一突破,未来或推动影视、游戏、元宇宙等行业进入「智能生成」新阶段。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。