首页 > 快讯 > Meta StreamDiT 实现革新,单GPU即可逐帧制作高清视频实时生成

Meta StreamDiT 实现革新,单GPU即可逐帧制作高清视频实时生成

发布时间:2025-07-14 11:09:14 | 责任编辑:吴昊 | 浏览量:10 次

Meta 和加州大学伯克利分校的研究人员共同开发了 StreamDiT,这是一款革命性的 AI 模型,能够以每秒16帧的速度实时创建512p 分辨率的视频,并且仅需单个高端 GPU。 与以往需要完整生成视频片段才能播放的方法不同,StreamDiT 实现了逐帧实时视频流生成。
StreamDiT 模型拥有 40亿个参数,展现了令人印象深刻的多功能性。它能够即时生成长达一分钟的视频,响应交互式提示,甚至可以实时编辑现有视频。在一个引人注目的演示中,StreamDiT 成功将视频中的一头猪实时替换为一只猫,同时保持背景不变。
该系统的核心在于其专为速度而构建的定制架构。StreamDiT 采用移动缓冲区技术,能够同时处理多个帧,实现在输出前一帧的同时处理下一帧。新帧在生成之初会比较嘈杂,但会逐渐优化直至达到可显示的状态。根据研究论文,该系统大约只需半秒即可生成两帧,经过处理后可以生成八张最终图像。
StreamDiT 将其缓冲区划分为固定参考帧和短块。在去噪过程中,图像相似度会逐渐降低,从而形成最终的视频帧。
为了提升模型的通用性,StreamDiT 的训练过程涵盖了多种视频创作方法,使用了 3,000个高质量视频和一个包含260万个视频的大型数据集。训练在 128块 Nvidia H100GPU 上进行,研究人员发现混合使用1到16帧的块大小能获得最佳效果。
为实现实时性能,团队引入了一项关键的加速技术,将所需的计算步骤从128步大幅减少到仅8步,同时最大程度地降低了对图像质量的影响。 StreamDiT 的架构也针对效率进行了优化,信息仅在局部区域之间交换,而非每个图像元素都与其他元素进行交互。
在直接对比测试中,StreamDiT 在处理包含大量运动的视频时,表现优于 ReuseDiffuse 和 FIFO 扩散等现有方法。 其他模型倾向于创建静态场景,而 StreamDiT 则能够生成更具动态感和自然感的运动。
人工评估员对 StreamDiT 在动作流畅度、动画完整性、帧间一致性以及整体质量方面的表现进行了评估。在对时长8秒、512p 的视频进行测试时,StreamDiT 在所有类别中均名列前茅。
研究团队还尝试了一个更大的300亿参数模型,该模型提供了更高的视频质量,尽管其速度尚不足以实现实时使用。这表明 StreamDiT 的方法可以扩展到更大的系统,预示着未来更高质量实时视频生成的可能性。
尽管取得了显著进展,StreamDiT 仍存在一些限制。例如,它对视频前半部分的“记忆”能力有限,并且各部分之间偶尔会出现可见的过渡。研究人员表示,他们正在积极研究解决方案以克服这些挑战。
值得注意的是,其他公司也在探索实时 AI 视频生成领域。例如,Odyssey 最近推出了一种自回归世界模型,能够根据用户输入逐帧调整视频,从而提供更便捷的交互体验。
StreamDiT 的出现标志着 AI 视频生成技术的一个重要里程碑,预示着实时交互式视频内容创作的广阔前景。

Meta StreamDiT 实现革新,单GPU即可逐帧制作高清视频实时生成

Meta 和加州大学伯克利分校的研究团队联合开发了 StreamDiT 模型,这是一种革命性的流媒体视频生成模型,能够实现真正的实时 AI 视频生成,仅需单个高端 GPU(如 H100),以每秒 16 帧的速度逐帧生成 512p 分辨率的视频,支持实时交互和内容调整。

StreamDiT 采用基于流匹配的训练方法和移动缓冲区(moving buffer)机制,结合混合训练策略(不同缓冲帧分区方案),提升内容连贯性和视觉质量;还通过多步骤蒸馏方法将采样步骤从 128 步压缩至 8 步,极大降低了计算需求,实现实时性能。其推理流程优化了架构,将 DiT 去噪器、解码器等部署在不同进程中并行运行,并通过提示回调函数实时监听用户新提示词输入,动态调整生成方向,支持实时交互与编辑。

StreamDiT 的 40 亿参数模型在单 GPU 上可即时创作长达一分钟的视频,用户可以在生成过程中实时调整内容(如将视频中的猪替换为猫),生成的视频在动作流畅度、帧间一致性等方面超越现有方法(如 ReuseDiffuse 和 FIFO 扩散模型)。此外,研究团队还验证了 300 亿参数模型的可扩展性,尽管其速度尚不足以实现实时运行,但为未来更高质量实时视频生成提供了可能。

目前,StreamDiT 仍处于研究阶段,尚未开源,但已展示了其在实时视频生成领域的巨大潜力,为视频创作、游戏、教育等场景带来新机遇。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复