首页 > 快讯 > 字节跳动震撼推出EX-4D开源项目:单目视频瞬间转换为自由视角4D巨制

字节跳动震撼推出EX-4D开源项目:单目视频瞬间转换为自由视角4D巨制

发布时间:2025-07-03 11:38:24 | 责任编辑:吴昊 | 浏览量:7 次

字节跳动旗下PICO-MR团队正式开源了**EX-4D**,一款突破性的4D视频生成框架。这款工具能够从单一视角(单目)视频生成高质量、多视角的4D视频序列(3D空间+时间维度),标志着视频生成技术迈向了新的里程碑。EX-4D不仅在技术指标上超越现有开源方法,还为沉浸式3D内容创作和“世界模型”构建提供了关键支持。以下是小编对这一前沿技术的深入解读。
**技术突破:从单目视频到自由视角**
传统视频生成技术在多视角生成方面面临两大挑战:一是需要昂贵的多视角相机和数据集进行训练;二是难以处理遮挡区域,导致生成的视频在极端视角下出现物体穿帮或细节失真。EX-4D通过创新的**深度密闭网格(DW-Mesh)**表示和轻量级适配架构,成功解决了这些问题。
DW-Mesh是EX-4D的核心技术,它通过构建全密闭网格结构,记录场景中的可见和隐形面片,无需多视角监督即可统一处理复杂场景拓扑。结合预训练深度预测模型,EX-4D将单帧像素投影到3D空间,形成网格顶点,并根据几何关系精准标记遮挡区域。这种方法确保了生成视频在极端视角(如±90°)下仍能保持物理一致性和细节完整性。
此外,EX-4D引入了两种模拟mask生成策略——**渲染mask**和**跟踪mask**,通过模拟视角移动和帧间一致性,破解了多视角训练数据的稀缺难题。这些策略使EX-4D仅凭单目视频即可“脑补”全视角数据,极大降低了数据采集成本。
**性能表现:指标全面领先**
EX-4D在性能测试中展现了卓越表现。基于包含150个网络视频的数据集,EX-4D在**FID(弗雷歇距离)**、**FVD(弗雷歇视频距离)**和**VBench**等行业标准指标上全面超越现有开源方法。尤其在极端视角(如接近90°)的生成任务中,EX-4D的性能优势尤为明显,生成的视频在物体细节和遮挡逻辑上表现更为真实。
在一项由50位志愿者参与的主观评估中,70.7%的参与者认为EX-4D在极端视角下的物理一致性远超其他开源方法。这表明EX-4D不仅在技术指标上领先,也在实际应用中获得了用户的高度认可。
字节跳动将EX-4D完全开源,代码和相关文档已发布在GitHub上,为全球开发者提供了免费访问的机会。这一举措不仅体现了字节跳动对开源社区的贡献,也为沉浸式3D电影、虚拟现实(VR)、增强现实(AR)等领域的创新应用奠定了基础。
EX-4D基于预训练的WAN-2.1模型,结合**LoRA-based Adapter**架构,在保持计算效率的同时,融入了DW-Mesh的几何先验信息,确保生成视频的几何一致性和帧间连贯性。这种轻量级设计使得EX-4D在资源受限的环境下也能高效运行,适合广泛的开发场景。
EX-4D的发布被视为构建“世界模型”的重要进展。相比传统的单向视频生成模型,EX-4D赋予了用户自由探索视频内容的能力,类似在“平行宇宙”中切换视角。这种相机可控的4D生成技术为沉浸式内容创作提供了无限可能,例如交互式3D电影、虚拟旅游和游戏开发。
字节跳动PICO-MR团队负责人表示,EX-4D是团队在3D重建与4D场景生成领域多年研究的结晶,未来将继续优化模型性能,探索更广泛的应用场景。小编认为,EX-4D的开源将加速AI视频生成技术的普及,推动多模态AI在创意产业中的落地。
网站:https://github.com/tau-yihouxiang/EX-4D

字节跳动震撼推出EX-4D开源项目:单目视频瞬间转换为自由视角4D巨制

字节跳动旗下Pico团队于2025年6月开源的EX-4D是一种新型4D视频生成框架,能够从单目视频输入生成极端视角下的高质量4D视频。其主要特点如下:

  • 深度密闭网格(DW-Mesh)表示:通过深度图预测,将像素点投影到3D空间形成网格顶点,并从相邻顶点构建网格面片,根据几何关系标记遮挡面片,从而实现对可见和被遮挡区域的显式建模,确保在极端相机姿态下保持几何一致性。

  • 模拟遮挡掩码策略:提出了两种创新的mask生成策略,仅凭单目视频就能“脑补”全视角训练数据,极大降低了对多视角采集的依赖。其中,渲染mask专注于模拟视角移动下的物体间遮挡关系,跟踪mask则侧重于保持可见区域的边缘像素一致性。

  • 轻量级LoRA基视频扩散适配器:基于预训练的WAN-2.1模型,采用LoRA-based Adapter架构,通过低秩适应技术将DW-Mesh的几何先验信息融入视频生成过程,确保在保持高效计算的同时,实现视频生成的几何一致性和帧间一致性。

EX-4D在极端视角下的性能显著优于现有方法,在FID、FVD和VBench等指标上全面超越了现有的开源可控视角生成方法。其支持从-90°到90°的极端视角视频生成,为沉浸式3D电影、虚拟现实等应用开辟了新可能性。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复