首页 > 快讯 > 昆仑万维发布SkyReels-V2开源项目：全新无限时长电影生成模型

昆仑万维发布SkyReels-V2开源项目：全新无限时长电影生成模型

发布时间：2025-04-21 11:49:44 | 责任编辑：张毅 | 浏览量：87 次

昆仑万维 SkyReels 团队正式发布并开源了 SkyReels-V2，这是全球首个使用扩散强迫（Diffusion-forcing）框架的无限时长电影生成模型。该模型通过结合多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强迫框架来实现协同优化，标志着视频生成技术迈入了一个新的阶段。
SkyReels-V2的发布旨在解决现有视频生成技术在提示词遵循、视觉质量、运动动态和视频时长协调上的重大挑战。该模型不仅在技术上实现了突破，还提供了多种应用场景，包括故事生成、图生视频、运镜专家和多主体一致性视频生成（SkyReels-A2）。SkyReels-V2现已支持生成30秒、40秒的视频，并具备生成高运动质量、高一致性、高保真视频的能力。
SkyReels-V2的核心技术创新包括:
全面的影视级视频理解模型 SkyCaptioner-V1:通过结构化的视频表示方法，结合多模态 LLM 的一般描述与子专家模型的详细镜头语言，显著提高了对镜头语言的理解能力。该模型能够高效地理解视频数据，生成符合原始结构信息的多样化描述。
针对运动的偏好优化:通过强化学习训练，使用人工标注和合成失真数据，解决了动态扭曲、不合理等问题。SkyReels-V2在运动动态方面表现出色，能够生成流畅且逼真的视频内容。
高效的扩散强迫框架:通过微调预训练的扩散模型，将其转化为扩散强迫模型，显著提高了生成效率。该方法不仅减少了训练成本，还实现了长视频的高效生成。
渐进式分辨率预训练与多阶段后训练优化:整合了来自通用数据集、自收集媒体和艺术资源库的亿级数据，通过多阶段优化方法，确保了 SkyReels-V2在资源有限的情况下，逐步提升多方面的表现，达到影视级视频生成的水准。
在性能评估方面，SkyReels-V2在 SkyReels-Bench 和 V-Bench 中表现出色。SkyReels-Bench 包含1020个文本提示词，系统性地评估了四个关键维度:指令遵循、运动质量、一致性和视觉质量。在 SkyReels-Bench 评估中，SkyReels-V2在指令遵循方面取得了显著进展，同时在保证运动质量的同时不牺牲视频的一致性效果。在 V-Bench1.0自动化评估中，SkyReels-V2在总分（83.9%）和质量分(84.7%)上均优于所有对比模型，包括 HunyuanVideo-13B 和 Wan2.1-14B。
SkyReels-V2的应用场景丰富多样，包括:
故事生成:通过滑动窗口方法，模型在生成新帧时会参考之前生成的帧和文本提示，支持时间上的扩展，生成具有连贯叙事的长镜头视频。
图像到视频合成:提供了两种图像到视频（I2V）的生成方法，包括微调全序列文本到视频(T2V)扩散模型和扩散强迫模型与帧条件结合的方法。
摄像导演功能:通过专门筛选的样本，确保基本摄像机运动及其常见组合的平衡表示，显著提升了摄影效果。
元素到视频生成:基于 SkyReels-V2基座模型，研发了 SkyReels-A2方案，能够将任意视觉元素组合成由文本提示引导的连贯视频。
昆仑万维 SkyReels 团队表示，将继续推动视频生成技术的发展，并将 SkyCaptioner-V1和 SkyReels-V2系列模型进行完全开源，以促进学术界和工业界的进一步研究和应用。团队还将继续优化 SkyReels-V2的性能，探索更多应用场景，并进一步降低计算成本，使其能够更广泛地应用于创意内容制作和虚拟仿真领域。
GitHub地址:
https://github.com/SkyworkAI/SkyReels-V2
论文地址:
https://arxiv.org/abs/2504.13074
SkyReels官网地址:
https://www.skyreels.ai/home

昆仑万维SkyReels团队于2025年4月21日正式发布并开源了全球首个使用扩散强迫（Diffusion-forcing）框架的无限时长电影生成模型SkyReels-V2。

核心技术

扩散强迫框架：SkyReels-V2采用扩散强迫框架，通过微调预训练的扩散模型，将其转化为扩散强迫模型，显著提高了生成效率。该方法采用非递减噪声时间表，将连续帧的去噪时间表搜索空间从O(1e48)降低到O(1e32)，从而实现了长视频的高效生成。
多模态大语言模型（MLLM）：结合多模态大语言模型，能够更好地理解文本提示和视频内容，生成更符合用户需求的视频。
强化学习：通过强化学习训练，使用人工标注和合成失真数据，解决了动态扭曲、不合理等问题，提升了运动动态的流畅性和合理性。
渐进式分辨率预训练与多阶段后训练优化：整合了来自通用数据集、自收集媒体和艺术资源库的亿级数据，通过多阶段优化方法，逐步提升模型在资源有限的情况下的多方面表现。

功能特点

无限时长生成能力：基于扩散强迫技术，能够生成理论上无限时长的视频内容，突破了传统视频生成模型在时长上的限制。
高运动质量：解决了传统模型运动扭曲问题，能够生成流畅、自然、物理合理的动作与镜头变换。
影视级视频质量：在清晰度、色彩、构图和镜头语言等方面接近真实影视内容，适用于专业创作场景。
精准指令遵循与一致性控制：通过SkyCaptioner-V1理解模型和强化学习机制，提升提示词响应能力与跨帧一致性。
多种生成范式支持：支持文本生成视频（T2V）、图像到视频（I2V）、多元素合成（E2V）、运镜模拟等复杂场景。

应用场景

故事生成：能够根据叙事文本提示编排复杂多动作序列，生成连贯的长镜头视频。
图像到视频合成：提供两种方法，包括微调全序列文本到视频扩散模型（SkyReels-V2-I2V）和扩散强迫模型与帧条件结合（SkyReels-V2-DF），将静态图像转化为连贯的视频。
运镜模拟：支持生成流畅且多样化的摄像机运动效果，提升视频的影视感。
多主体一致性视频生成：适合短剧、音乐视频和虚拟电商内容创作等应用。

优势与开源意义

SkyReels-V2不仅在技术上实现了突破，还为创意内容制作和虚拟仿真领域提供了强大的工具。其核心模型及子模块（包括A2和Captioner）均已开源，支持中低算力高效训练与部署。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。