首页 > 快讯 > 腾讯发布GeometryCrafter：用AI解锁开放世界视频的几何一致性之美

腾讯发布GeometryCrafter：用AI解锁开放世界视频的几何一致性之美

发布时间：2025-04-02 11:36:23 | 责任编辑：字母汇 | 浏览量：162 次

《腾讯发布GeometryCrafter：用AI解锁开放世界视频的几何一致性之美》相关软件官网

近日，腾讯在人工智能领域再下一城，其研发团队通过Hugging Face平台正式发布了全新AI模型GeometryCrafter。这一模型以其在开放世界视频中实现一致性几何估计的卓越能力，迅速成为科技圈的焦点。借助扩散先验技术（Diffusion Priors），GeometryCrafter不仅为视频内容的深度理解和处理带来了新的可能性，也为创作者和研究者提供了一把探索三维世界的“钥匙”。
GeometryCrafter的核心亮点在于其能够从动态、复杂的开放世界视频中提取并生成一致的几何信息。所谓“开放世界视频”，指的是那些内容多样、场景切换频繁、视角变化丰富的视频素材，例如街头实拍、旅行记录或自然风光纪录片。与传统的静态图像几何估计不同，这类视频对AI模型的时空一致性和泛化能力提出了更高要求。腾讯团队通过将预训练的扩散模型与视频几何估计相结合，成功让GeometryCrafter在无需额外信息（如相机位姿或光流数据）的情况下，生成细腻且连贯的深度序列和几何结构。
据介绍，该模型的研发灵感源于扩散模型在图像生成领域的成功经验。扩散先验技术通过逐步去噪的过程，能够捕捉视频帧间的微妙关联，并将这些信息转化为三维空间的几何表达。无论是城市街道上行人川流不息的动态，还是山川河流间光影交错的自然景观，GeometryCrafter都能以惊艳的精度还原其空间层次。这种能力不仅让视频内容从二维平面“跃然立体”，也为后续的视觉特效、虚拟现实内容生成等应用奠定了坚实基础。
业内专家指出，GeometryCrafter的发布填补了开放世界视频几何估计领域的一项空白。此前，许多模型在处理长序列视频或非受控场景时，往往因缺乏足够的上下文理解而导致结果失真。而GeometryCrafter通过其独特的三阶段训练策略，结合真实与合成数据集，既保留了内容的丰富多样性，又确保了几何细节的精确性。实验结果显示，该模型在多个公开数据集上的表现超越了现有方法，尤其是在保持长时间序列一致性方面，堪称行业标杆。
对于普通用户和创作者而言，GeometryCrafter的意义同样深远。想象一下，家庭录像中的孩子奔跑画面可以通过这一技术被赋予三维深度，甚至被无缝融入虚拟场景;抑或是一个独立电影制作人，利用GeometryCrafter将简单的拍摄素材转化为沉浸式的视觉体验。腾讯此次选择在Hugging Face上开源模型代码和权重，也体现了其推动AI技术普惠化的决心，让更多人能够参与到这一技术的探索与应用中。
当然，GeometryCrafter并非完美无缺。有分析人士提到，其对计算资源的需求可能对普通设备构成挑战，而在极端复杂的场景（如密集人群或快速运动物体）中，模型的性能仍有优化空间。但不可否认的是，这一技术的推出为我们打开了一扇窗，让人们得以窥见AI如何将日常生活的片段转化为充满立体感的数字艺术。
随着GeometryCrafter的亮相，腾讯再次证明了其在AI领域的深厚积累与创新能力。从视频内容的几何重构到跨领域的潜在应用，这款模型不仅是一项技术突破，更是一个温暖的邀请——邀请每一个人用科技的力量，去重新发现和塑造我们身处的这个多彩世界。
论文:https://huggingface.co/papers/2504.01016
模型:https://huggingface.co/TencentARC/GeometryCrafter

腾讯近期推出的 GeometryCrafter 是一款基于 AI 的创新工具，旨在解决开放世界视频生成中的几何一致性问题，使虚拟场景的动态渲染更加真实、连贯。该技术由腾讯 AI Lab 联合多所高校研发，结合了 3D 点云重建、神经渲染和扩散模型 等前沿技术，显著提升了视频生成的空间连续性和物理合理性。

GeometryCrafter 的核心技术突破

基于点云的动态场景建模
- 传统方法（如 NeRF、3D-GS）依赖密集多视角数据，而 GeometryCrafter 仅需 单张或稀疏输入图像，即可通过快速多视图立体技术（MVS）重建 3D 点云，并支持 6 自由度的相机位姿控制。
- 该技术克服了点云渲染中的 遮挡、几何失真 问题，通过 增强渲染器 生成高保真、一致性的新视角视频。
视频扩散模型 + 几何先验的结合
- 传统视频扩散模型（如 Stable Video Diffusion）缺乏显式 3D 信息，导致视角切换时出现 物体形变、光影不连贯。
- GeometryCrafter 引入 点云控制信号，指导 AI 生成符合物理规律的动态视频，确保物体在不同视角下保持几何一致性。
长视频生成与自适应相机轨迹规划
- 采用 迭代式生成策略，逐步扩展新视角覆盖范围，并优化点云重建质量，支持 动态 4D 场景重建（如云、水流等自然现象）。
- 相比传统方法，其生成的长视频（如 30 秒以上）在 Tanks-and-Temples、CO3D 等数据集 上表现更优。

应用场景

游戏开发：自动生成开放世界的动态环境（如天气变化、建筑破坏效果），减少人工建模成本。
影视特效：从单张概念图生成多视角 3D 场景，加速虚拟制片流程。
虚拟现实（VR）：提供更真实的沉浸式体验，如自由视角漫游、交互式 3D 内容生成。

行业影响与未来方向

降低 3D 内容创作门槛：类似 ViewCrafter（北大/腾讯开源工具），GeometryCrafter 让非专业用户也能生成高质量 3D 视频。
与腾讯生态整合：可能接入 GameGen-O（AI 游戏生成系统），进一步优化开放世界游戏的自动生成。
挑战：仍需优化复杂动态物体（如人物动作）的物理模拟，并探索 实时渲染 方案。

腾讯此次发布标志着 AI 在 3D 视觉生成 领域的又一突破，未来或推动影视、游戏、元宇宙等行业进入「智能生成」新阶段。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：高通收购越南 AI 公司 MovianAI，推动生成式 AI 研发

下一篇： MiniMax Audio推Speech- 02语音模型，一次性可以输入20万字符

腾讯发布GeometryCrafter：用AI解锁开放世界视频的几何一致性之美

GeometryCrafter 的核心技术突破

应用场景

行业影响与未来方向

最新Ai信息

最新Ai工具

热门AI推荐