首页 > 快讯 > Direct3D-S2 震撼登场！3D生成速度暴增十倍，千兆级性能引领AI建模新时代！

Direct3D-S2 震撼登场！3D生成速度暴增十倍，千兆级性能引领AI建模新时代！

发布时间：2025-05-27 15:39:00 | 责任编辑：吴昊 | 浏览量：367 次

近日，一款名为 Direct3D-S2的全新3D 生成框架引发了业界热议。该框架通过创新的空间稀疏注意力（SSA）机制，显著提升了高分辨率3D 图像生成的质量与效率，为千兆级3D 生成提供了更具可扩展性的解决方案。小编综合整理最新信息，带您深入了解 Direct3D-S2的技术突破与应用前景。
空间稀疏注意力:效率与质量的双重飞跃
Direct3D-S2的核心创新在于其空间稀疏注意力（SSA）机制，专为处理稀疏体视数据设计。该机制通过优化扩散变换器(DiT)的计算方式，显著降低了训练和推理的资源需求。据悉，SSA 机制使前向传播速度提升3.9倍，反向传播速度提升9.6倍，极大缩短了生成高分辨率3D 模型的时间。相比传统方法，Direct3D-S2在保持高质量输出的同时，训练成本大幅降低，展现了卓越的效率优势。
统一稀疏体视格式:提升训练稳定性
Direct3D-S2采用了一种统一的稀疏体视变分自编码器（VAE），在输入、潜在表示和输出阶段保持一致的稀疏体视格式。相较于依赖异构表示的传统3D VAE，这种设计显著提高了训练的稳定性和效率。得益于此，Direct3D-S2能够在1024³ 分辨率下进行训练，仅需8块 GPU，而传统方法通常需要32块 GPU 才能完成256³ 分辨率的训练，标志着千兆级3D 生成的实用性迈上新台阶。
生成质量超越业界标杆
Direct3D-S2在公开数据集上的测试表现令人瞩目，其生成质量不仅超越了现有最先进的3D 生成方法，还在细节捕捉和几何精度上表现出色。生成的3D 形状展现了更高的分辨率和更精细的表面细节，适用于虚拟现实、游戏开发、工业设计等多个领域。小编观察到，Direct3D-S2的高分辨率生成能力有望为复杂3D 建模任务提供全新解决方案。
开源计划:赋能全球开发者
据最新消息，Direct3D-S2的代码和模型权重将在近期公开，具体时间预计在5月底之前。这一开源举措将进一步推动3D 生成技术在全球开发者社区中的普及与应用。尽管具体开源许可尚未明确，但业界对其开放性寄予厚望，期待其成为推动3D 内容创作的催化剂。
3D 生成的未来风向
Direct3D-S2的发布标志着高分辨率3D 生成技术的一次重大飞跃。其空间稀疏注意力机制和高效的训练框架不仅突破了传统方法的计算瓶颈，还为千兆级3D 生成提供了可扩展的解决方案。小编认为，随着开源计划的推进，Direct3D-S2有望在虚拟现实、增强现实、影视制作等领域引发广泛应用，推动3D 内容创作进入更加高效和精细化的新时代。
结语
Direct3D-S2以其创新的空间稀疏注意力机制和高效的稀疏体视框架，为高分辨率3D 生成树立了新标杆。从显著提速的训练过程到超越业界的高质量输出，这款框架展现了3D 生成技术的无限可能。
项目地址：https://github.com/DreamTechAI/Direct3D-S2

Direct3D-S2 是由南京大学、DreamTech、复旦大学和牛津大学的研究人员共同推出的高分辨率 3D 生成框架。它基于稀疏体积表示和创新的空间稀疏注意力（SSA）机制，大幅提升了扩散变换器（DiT）的计算效率，显著降低了训练成本。以下是其具体介绍：

技术原理

空间稀疏注意力（SSA）机制：将输入 token 按 3D 坐标分块，基于稀疏 3D 卷积和池化操作提取块级全局信息，减少 token 数量，提高计算效率。根据压缩模块的注意力分数，选择重要的块进行细粒度特征提取，进一步优化计算资源的使用。SSA 机制在前向传播中实现了 3.9 倍的加速，在反向传播中更是达到了 9.6 倍的加速。
稀疏 SDF 变分自编码器（SS-VAE）：用稀疏 3D 卷积网络和 Transformer 网络相结合的方式，将高分辨率稀疏 SDF 体积编码为稀疏潜在表示，基于解码器重建 SDF 体积。在训练过程中随机采样不同分辨率的 SDF 体积，提高模型对不同分辨率数据的适应能力，增强训练效率和泛化能力。
图像条件的扩散变换器（SS-DiT）：从输入图像中提取稀疏前景 token，减少背景 token 的干扰，提高生成的 3D 模型与输入图像的一致性。基于条件流匹配（CFM）训练模型，预测从噪声样本到数据分布的速度场，实现高效的 3D 形状生成。

性能优势

高分辨率 3D 形状生成：支持高达 1024³ 的分辨率，生成的 3D 模型具有精细的几何细节和高视觉质量。
高效的训练与推理：在 1024³ 分辨率下仅需 8 个 GPU 进行训练，相比之前至少需要 32 个 GPU 的 256³ 体积训练，极大降低了大规模 3D 生成的难度和成本。

应用场景

虚拟现实（VR）和增强现实（AR）：构建逼真的 3D 环境，创建个性化 3D 角色，融合现实场景用于教育和保护文化遗产。
游戏开发：快速生成高质量 3D 游戏资产，实现实时 3D 内容生成，根据玩家输入生成定制化内容。
产品设计和原型制作：快速生成产品 3D 模型，虚拟展示产品，满足个性化设计需求。
影视和动画制作：生成高质量 3D 动画角色，创建虚拟场景，制作复杂 3D 特效。
教育和培训：创建虚拟实验室，生成 3D 教学模型，进行虚拟职业培训。

项目资源

项目官网：https://nju-3dv.github.io/projects/Direct3D-S2/
GitHub 仓库：https://github.com/DreamTechAI/Direct3D-S2
arXiv 技术论文：https://arxiv.org/pdf/2505.17412
在线体验 Demo：https://huggingface.co/spaces/wushuang98/Direct3D-S2

Direct3D-S2 的出现，确实为 AI 建模带来了新的突破，使千兆级 3D 生成变得更加实用和易于实现。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。