首页 > 快讯 > Meta StreamDiT 实现革新，单GPU即可逐帧制作高清视频实时生成

Meta StreamDiT 实现革新，单GPU即可逐帧制作高清视频实时生成

发布时间：2025-07-14 11:09:14 | 责任编辑：吴昊 | 浏览量：111 次

Meta 和加州大学伯克利分校的研究人员共同开发了 StreamDiT，这是一款革命性的 AI 模型，能够以每秒16帧的速度实时创建512p 分辨率的视频，并且仅需单个高端 GPU。与以往需要完整生成视频片段才能播放的方法不同，StreamDiT 实现了逐帧实时视频流生成。
StreamDiT 模型拥有 40亿个参数，展现了令人印象深刻的多功能性。它能够即时生成长达一分钟的视频，响应交互式提示，甚至可以实时编辑现有视频。在一个引人注目的演示中，StreamDiT 成功将视频中的一头猪实时替换为一只猫，同时保持背景不变。
该系统的核心在于其专为速度而构建的定制架构。StreamDiT 采用移动缓冲区技术，能够同时处理多个帧，实现在输出前一帧的同时处理下一帧。新帧在生成之初会比较嘈杂，但会逐渐优化直至达到可显示的状态。根据研究论文，该系统大约只需半秒即可生成两帧，经过处理后可以生成八张最终图像。
StreamDiT 将其缓冲区划分为固定参考帧和短块。在去噪过程中，图像相似度会逐渐降低，从而形成最终的视频帧。
为了提升模型的通用性，StreamDiT 的训练过程涵盖了多种视频创作方法，使用了 3，000个高质量视频和一个包含260万个视频的大型数据集。训练在 128块 Nvidia H100GPU 上进行，研究人员发现混合使用1到16帧的块大小能获得最佳效果。
为实现实时性能，团队引入了一项关键的加速技术，将所需的计算步骤从128步大幅减少到仅8步，同时最大程度地降低了对图像质量的影响。 StreamDiT 的架构也针对效率进行了优化，信息仅在局部区域之间交换，而非每个图像元素都与其他元素进行交互。
在直接对比测试中，StreamDiT 在处理包含大量运动的视频时，表现优于 ReuseDiffuse 和 FIFO 扩散等现有方法。其他模型倾向于创建静态场景，而 StreamDiT 则能够生成更具动态感和自然感的运动。
人工评估员对 StreamDiT 在动作流畅度、动画完整性、帧间一致性以及整体质量方面的表现进行了评估。在对时长8秒、512p 的视频进行测试时，StreamDiT 在所有类别中均名列前茅。
研究团队还尝试了一个更大的300亿参数模型，该模型提供了更高的视频质量，尽管其速度尚不足以实现实时使用。这表明 StreamDiT 的方法可以扩展到更大的系统，预示着未来更高质量实时视频生成的可能性。
尽管取得了显著进展，StreamDiT 仍存在一些限制。例如，它对视频前半部分的“记忆”能力有限，并且各部分之间偶尔会出现可见的过渡。研究人员表示，他们正在积极研究解决方案以克服这些挑战。
值得注意的是，其他公司也在探索实时 AI 视频生成领域。例如，Odyssey 最近推出了一种自回归世界模型，能够根据用户输入逐帧调整视频，从而提供更便捷的交互体验。
StreamDiT 的出现标志着 AI 视频生成技术的一个重要里程碑，预示着实时交互式视频内容创作的广阔前景。

Meta 和加州大学伯克利分校的研究团队联合开发了 StreamDiT 模型，这是一种革命性的流媒体视频生成模型，能够实现真正的实时 AI 视频生成，仅需单个高端 GPU（如 H100），以每秒 16 帧的速度逐帧生成 512p 分辨率的视频，支持实时交互和内容调整。

StreamDiT 采用基于流匹配的训练方法和移动缓冲区（moving buffer）机制，结合混合训练策略（不同缓冲帧分区方案），提升内容连贯性和视觉质量；还通过多步骤蒸馏方法将采样步骤从 128 步压缩至 8 步，极大降低了计算需求，实现实时性能。其推理流程优化了架构，将 DiT 去噪器、解码器等部署在不同进程中并行运行，并通过提示回调函数实时监听用户新提示词输入，动态调整生成方向，支持实时交互与编辑。

StreamDiT 的 40 亿参数模型在单 GPU 上可即时创作长达一分钟的视频，用户可以在生成过程中实时调整内容（如将视频中的猪替换为猫），生成的视频在动作流畅度、帧间一致性等方面超越现有方法（如 ReuseDiffuse 和 FIFO 扩散模型）。此外，研究团队还验证了 300 亿参数模型的可扩展性，尽管其速度尚不足以实现实时运行，但为未来更高质量实时视频生成提供了可能。

目前，StreamDiT 仍处于研究阶段，尚未开源，但已展示了其在实时视频生成领域的巨大潜力，为视频创作、游戏、教育等场景带来新机遇。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。