腾讯HunyuanWorld-Voyager开源:一键生成3D图像,超越Gen-3,震撼全球榜首!
发布时间:2025-09-02 15:21:08 | 责任编辑:吴昊 | 浏览量:47 次
腾讯AI研究团队Hunyuan近期动作频频,其最新开源项目HunyuanWorld-Voyager引发了全球AI与3D技术领域的热烈讨论。作为一款具备原生3D重建能力的超长程世界模型,HunyuanWorld-Voyager在WorldScore排行榜上荣登榜首,凭借卓越的相机控制、内容对齐和3D一致性表现,超越了Gen-3等竞品。这款模型为3D重建、深度估计及图生3D等应用场景带来了革命性突破。
原生3D重建,单张图像生成点云
HunyuanWorld-Voyager的最大亮点在于其原生3D重建能力。仅需一张输入图像,模型即可生成与世界一致性的3D点云,省去了传统3D建模复杂的前处理步骤。得益于腾讯在多模态生成领域的深厚积累,该模型能够高效捕捉图像中的几何信息和语义细节,为虚拟场景的快速构建提供了可能。这一特性使其在游戏开发、虚拟现实(VR)和数字内容创作等领域具有广泛应用潜力。
卓越相机控制,探索无界3D世界
与传统3D生成模型相比,HunyuanWorld-Voyager在相机控制方面表现出色。用户可自定义相机路径,模型能够根据轨迹生成几何一致的3D场景,保持长期的空间连贯性。无论是360°全景漫游还是特定视角的细节探索,该模型都能提供流畅的交互体验。此外,模型支持实时生成精确对齐的深度信息和RGB视频,无需额外后处理即可用于高质量3D重建,极大提升了开发效率。
WorldScore榜首,性能全面领先
根据最新数据,HunyuanWorld-Voyager在WorldScore排行榜上名列第一,相机控制、内容对齐和3D一致性等关键指标全面超越Gen-3等现有模型。其独特的多阶段架构结合了全景图像生成、语义分层和层次化3D重建技术,确保了生成世界的视觉质量和几何一致性。腾讯通过开源完整代码、模型权重和文档,进一步降低了开发者使用门槛,助力全球AI社区的协作创新。
多场景应用,赋能产业升级
HunyuanWorld-Voyager的应用场景极为广泛。在游戏开发中,开发者可利用其快速生成可交互的3D世界,大幅缩短开发周期;在VR领域,模型支持生成沉浸式全景环境,为用户提供逼真的虚拟体验;此外,其在3D重建和深度估计中的出色表现,还可应用于机器人导航、自动驾驶和增强现实(AR)等前沿领域。腾讯表示,该模型的开源将推动3D内容创作的民主化,为中小型开发者和独立创作者提供媲美顶级工作室的工具。
开源战略,腾讯加速AI生态布局
腾讯Hunyuan团队此次开源HunyuanWorld-Voyager,是其2025年开源计划的重要一环。此前,腾讯已陆续开源了Hunyuan3D-2.0、Hunyuan3D-2.1等多款3D生成模型,涵盖从高分辨率资产生成到游戏场景优化的多种技术。HunyuanWorld-Voyager的发布进一步巩固了腾讯在全球AI竞赛中的领先地位,其开放的社区驱动模式也与Stable Diffusion等项目形成呼应,对抗西方封闭生态的垄断趋势。
腾讯HunyuanWorld-Voyager的开源标志着3D世界生成技术的又一次飞跃。其原生3D重建、卓越的相机控制和广泛的应用场景,不仅为开发者提供了强大工具,也为AI驱动的虚拟世界探索开辟了新可能。
项目地址:https://3d-models.hunyuan.tencent.com/world/
腾讯混元实验室最近接连放大招:
-
7 月底开源了 HunyuanWorld-1.0(亦称 HunyuanWorld)
;
-
9 月 2 日又把里面的“长距离视角补完”模块单拎出来,起了个新名字 HunyuanWorld-Voyager,一并开源
。
这两件事被社区合称为“腾讯开源神器 HunyuanWorld-Voyager”,于是就有了标题里的“单图秒生 3D 世界,碾压 Gen-3 登顶全球”的说法。下面把关键信息一次说清:
📌 HunyuanWorld-Voyager 到底是什么?
-
一句话版本:只用 一张图 + 任意相机轨迹,就能实时生成可漫游的 3D 点云 + 同步深度视频,不再需要多视角拍摄、NeRF 训练或人工修模
。
-
官方定位:HunyuanWorld-1.0 的「长距离世界扩展」子模块,代号 Voyager
。
🚀 技术亮点
传统管线 | HunyuanWorld-Voyager |
---|---|
拍几十张图 → 结构光/NeRF → 人工修模 → 导入引擎 | 给一张图 → 指定相机路线 → 直接出可漫游 3D 视频 |
长镜头易闪、几何裂缝 | 世界缓存 + 平滑采样,帧间天生对齐 |
换风格要重新渲染整套资产 | 换参考图即可风格迁移,几何不变 |
核心实现:
-
RGB-Depth 联合扩散:一次生成彩色与深度,天然对齐。
-
世界缓存(World Cache):把已有点云放显存,实时剔除冗余,内存省 40 %。
-
平滑视频采样:多段重叠 50 % 拼接,理论无限时长不闪屏。
⚙️ 实测表现
-
显存需求:60 GB 可跑 540p;80 GB 跑 720p;24 GB 单卡 4090 暂时跑不动
。
-
输出格式:
.ply
点云 +.mp4
视频,Blender / Unreal / Unity 即插即用。 -
长视频:官方示例 8 段 × 49 帧 = 392 帧无闪烁,可继续拼接
。
🏆 与 Gen-3 等 SOTA 的对比
官方未给出直面 Runway Gen-3 的 FPS / FID 数字,但社区转发的“碾压”主要指:在单图→可漫游 3D 世界的端到端链路里,Voyager 是目前唯一开源、可本地部署、且几何一致性最好的方案,因此被 HuggingFace 趋势榜冲到了 #1。
维度 | HunyuanWorld-Voyager | Runway Gen-3 等视频模型 |
---|---|---|
输入 | 单张图 | 单张图或文本 |
输出 | 可漫游 3D 点云 + 深度视频 | 2D 视频 |
几何一致性 | 帧间天生对齐,可直接导入 3D 软件 | 仅靠时序一致性,易飘 |
开源&本地 | 完全开源,可本地部署 | 在线 API,闭源 |
📦 如何试玩
-
拉代码
bash
git clone https://github.com/tencent-arc/HunyuanWorld-Voyager conda env create -f environment.yml
-
单图生成 3D 世界
bash
python demo.py --image_path examples/house.png --trajectory circle --output out/
-
Blender 导入
-
打开 Blender → File → Import →
.ply
→ 勾选“Vertex Color”即可看到带颜色的点云。 -
把同目录下的
_cameras.json
导入 Camera Tracking,立刻拥有可渲染的漫游动画。
-
📜 许可证
-
代码 Apache-2.0;
-
模型权重需遵守官方 LICENSE,商用前务必再核对一次
。
一句话总结:如果你想用最低成本把一张照片变成可随意走动、还能直接丢进 Unreal/Blender 做后期的 3D 场景,目前开源圈里最顺滑的方案就是 HunyuanWorld-Voyager。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。