昆仑万维发布SkyReels-V2开源项目:全新无限时长电影生成模型
发布时间:2025-04-21 11:49:44 | 责任编辑:张毅 | 浏览量:4 次
昆仑万维 SkyReels 团队正式发布并开源了 SkyReels-V2,这是全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型。该模型通过结合多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强迫框架来实现协同优化,标志着视频生成技术迈入了一个新的阶段。
SkyReels-V2的发布旨在解决现有视频生成技术在提示词遵循、视觉质量、运动动态和视频时长协调上的重大挑战。该模型不仅在技术上实现了突破,还提供了多种应用场景,包括故事生成、图生视频、运镜专家和多主体一致性视频生成(SkyReels-A2)。SkyReels-V2现已支持生成30秒、40秒的视频,并具备生成高运动质量、高一致性、高保真视频的能力。
SkyReels-V2的核心技术创新包括:
全面的影视级视频理解模型 SkyCaptioner-V1:通过结构化的视频表示方法,结合多模态 LLM 的一般描述与子专家模型的详细镜头语言,显著提高了对镜头语言的理解能力。该模型能够高效地理解视频数据,生成符合原始结构信息的多样化描述。
针对运动的偏好优化:通过强化学习训练,使用人工标注和合成失真数据,解决了动态扭曲、不合理等问题。SkyReels-V2在运动动态方面表现出色,能够生成流畅且逼真的视频内容。
高效的扩散强迫框架:通过微调预训练的扩散模型,将其转化为扩散强迫模型,显著提高了生成效率。该方法不仅减少了训练成本,还实现了长视频的高效生成。
渐进式分辨率预训练与多阶段后训练优化:整合了来自通用数据集、自收集媒体和艺术资源库的亿级数据,通过多阶段优化方法,确保了 SkyReels-V2在资源有限的情况下,逐步提升多方面的表现,达到影视级视频生成的水准。
在性能评估方面,SkyReels-V2在 SkyReels-Bench 和 V-Bench 中表现出色。SkyReels-Bench 包含1020个文本提示词,系统性地评估了四个关键维度:指令遵循、运动质量、一致性和视觉质量。在 SkyReels-Bench 评估中,SkyReels-V2在指令遵循方面取得了显著进展,同时在保证运动质量的同时不牺牲视频的一致性效果。在 V-Bench1.0自动化评估中,SkyReels-V2在总分(83.9%)和质量分(84.7%)上均优于所有对比模型,包括 HunyuanVideo-13B 和 Wan2.1-14B。
SkyReels-V2的应用场景丰富多样,包括:
故事生成:通过滑动窗口方法,模型在生成新帧时会参考之前生成的帧和文本提示,支持时间上的扩展,生成具有连贯叙事的长镜头视频。
图像到视频合成:提供了两种图像到视频(I2V)的生成方法,包括微调全序列文本到视频(T2V)扩散模型和扩散强迫模型与帧条件结合的方法。
摄像导演功能:通过专门筛选的样本,确保基本摄像机运动及其常见组合的平衡表示,显著提升了摄影效果。
元素到视频生成:基于 SkyReels-V2基座模型,研发了 SkyReels-A2方案,能够将任意视觉元素组合成由文本提示引导的连贯视频。
昆仑万维 SkyReels 团队表示,将继续推动视频生成技术的发展,并将 SkyCaptioner-V1和 SkyReels-V2系列模型进行完全开源,以促进学术界和工业界的进一步研究和应用。团队还将继续优化 SkyReels-V2的性能,探索更多应用场景,并进一步降低计算成本,使其能够更广泛地应用于创意内容制作和虚拟仿真领域。
GitHub地址:
https://github.com/SkyworkAI/SkyReels-V2
论文地址:
https://arxiv.org/abs/2504.13074
SkyReels官网地址:
https://www.skyreels.ai/home
昆仑万维SkyReels团队于2025年4月21日正式发布并开源了全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型SkyReels-V2。
核心技术
-
扩散强迫框架:SkyReels-V2采用扩散强迫框架,通过微调预训练的扩散模型,将其转化为扩散强迫模型,显著提高了生成效率。该方法采用非递减噪声时间表,将连续帧的去噪时间表搜索空间从O(1e48)降低到O(1e32),从而实现了长视频的高效生成。
-
多模态大语言模型(MLLM):结合多模态大语言模型,能够更好地理解文本提示和视频内容,生成更符合用户需求的视频。
-
强化学习:通过强化学习训练,使用人工标注和合成失真数据,解决了动态扭曲、不合理等问题,提升了运动动态的流畅性和合理性。
-
渐进式分辨率预训练与多阶段后训练优化:整合了来自通用数据集、自收集媒体和艺术资源库的亿级数据,通过多阶段优化方法,逐步提升模型在资源有限的情况下的多方面表现。
功能特点
-
无限时长生成能力:基于扩散强迫技术,能够生成理论上无限时长的视频内容,突破了传统视频生成模型在时长上的限制。
-
高运动质量:解决了传统模型运动扭曲问题,能够生成流畅、自然、物理合理的动作与镜头变换。
-
影视级视频质量:在清晰度、色彩、构图和镜头语言等方面接近真实影视内容,适用于专业创作场景。
-
精准指令遵循与一致性控制:通过SkyCaptioner-V1理解模型和强化学习机制,提升提示词响应能力与跨帧一致性。
-
多种生成范式支持:支持文本生成视频(T2V)、图像到视频(I2V)、多元素合成(E2V)、运镜模拟等复杂场景。
应用场景
-
故事生成:能够根据叙事文本提示编排复杂多动作序列,生成连贯的长镜头视频。
-
图像到视频合成:提供两种方法,包括微调全序列文本到视频扩散模型(SkyReels-V2-I2V)和扩散强迫模型与帧条件结合(SkyReels-V2-DF),将静态图像转化为连贯的视频。
-
运镜模拟:支持生成流畅且多样化的摄像机运动效果,提升视频的影视感。
-
多主体一致性视频生成:适合短剧、音乐视频和虚拟电商内容创作等应用。
优势与开源意义
SkyReels-V2不仅在技术上实现了突破,还为创意内容制作和虚拟仿真领域提供了强大的工具。其核心模型及子模块(包括A2和Captioner)均已开源,支持中低算力高效训练与部署。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。