首页 > 快讯 > 开源通义万相2.1版本尾帧至视频模型Wan2.1-FLF2V-14B首次亮相

开源通义万相2.1版本尾帧至视频模型Wan2.1-FLF2V-14B首次亮相

发布时间：2025-04-18 08:48:51 | 责任编辑：字母汇 | 浏览量：136 次

《开源通义万相2.1版本尾帧至视频模型Wan2.1-FLF2V-14B首次亮相》相关软件官网

阿里通义宣布开源 Wan2.1系列模型，其中包括强大的首尾帧生视频模型。这一模型采用了先进的 DiT 架构，在技术上实现了多项突破，显著降低了高清视频生成的运算成本，同时确保了生成视频在时间与空间上的高度一致性。此次开源为开发者和创作者提供了强大的工具，推动视频生成技术的发展。
阿里通义发布的 Wan2.1系列模型在多个方面进行了优化和创新。其中，高效的视频压缩 VAE 模型显著降低了运算成本，使得高清视频生成更加高效且经济。模型的 Transformer 部分基于主流的视频 DiT 结构，通过 Full Attention 机制精准捕捉长时程的时空依赖关系，确保了生成视频在时间与空间上的高度一致性。此外，首尾帧生视频模型引入了额外的条件控制分支，用户输入的首帧和尾帧作为控制条件，通过这一分支实现了流畅且精准的首尾帧变换。
在训练及推理优化方面，通义万相首尾帧生视频模型采用了基于线性噪声轨迹的流匹配（Flow Matching）方法。在训练阶段，模型采用了数据并行(DP)与完全分片数据并行(FSDP)相结合的分布式策略，支持分辨率为720p、时长为5秒的视频切片训练。在推理阶段，模型采用了模型切分策略以及序列并行策略，显著缩短了推理时间，同时实现了 FlashAttention3INT8与 FP8混合算子以对注意力机制部分进行8比特量化，确保推理效果无损。
模型的训练分为三个阶段，逐步提升能力。第一阶段使用与基模型相同的数据集，在480p 分辨率下进行图生视频、任意位置插帧、视频续写等任务的混合训练。第二阶段构建专门用于首尾帧模式的训练数据，筛选出首尾帧差异较大的视频片段，专注于优化首尾帧生成能力。第三阶段采用高精度数据集，在720p 分辨率下完成最终训练，确保生成视频的细节复刻与动作流畅性达到最佳水平。
基于通义万相首尾帧生视频模型的强大能力，它不仅能完美复刻输入图像的细节，还能生成具有生动真实动作的视频。目前，通义万相首尾帧生视频模型已同步在 GitHub 开源，欢迎广大开发者与创作者试用并提出宝贵意见。开源地址如下:

开源通义万相2.1版本尾帧至视频模型Wan2.1-FLF2V-14B首次亮相-项目/模型网址:
GitHub Model Scope Hugging Face

开源通义万相2.1版本尾帧至视频模型Wan2.1-FLF2V-14B首次亮相

通义万相2.1开源的首尾帧生视频模型Wan2.1-FLF2V-14B是业界首个百亿参数规模的开源首尾帧视频生成模型。以下是关于该模型的详细介绍：

模型特点

输入输出：用户只需提供两张照片作为首帧和尾帧，模型就能自动生成一段丝滑流畅的高清视频，可直接生成720p分辨率的视频。
可控性高：相比文生视频、单图生视频，首尾帧生视频的可控性更高，能够精准理解并遵循用户指令，画面过渡流畅自然且符合真实世界的物理规律。
应用场景丰富：可以完成更复杂、更个性化的视频生成任务，比如实现同一主体的特效变化、不同场景的运镜控制等。例如，上传相同位置不同时间段的两张外景图片，输入一段提示词，即可生成四季交替变化或者昼夜变化的延时摄影效果视频。

技术架构

基于DiT架构：结合Flow Matching训练策略，设计了一套高效的首尾帧条件控制机制，在保证首尾帧完美复刻的情况下，能很好地遵循用户指令，生成动作连贯、运动真实、符合真实世界规律的高质量视频。
数据驱动的训练策略：数据集逐步升级，从480p到720p分辨率，提升生成视频的质量。第一阶段混合训练图生视频、插帧、续写及首尾帧模型，学习有效的掩码机制；第二阶段构建专门用于首尾帧模式的数据集，筛选首尾帧差异较大的视频片段，专注首尾帧模型训练；第三阶段使用高质量数据集，在720p分辨率下进一步优化首尾帧模型。
训练和推理优化：在训练阶段，针对文本与视频编码模块、扩散变换模型模块采用了并行策略，提升了模型训练和生成效率。在推理阶段，为了在有限内存资源的条件下支持高清视频推理，分别采用了模型切分策略以及序列并行策略，在确保推理效果无损的前提下，显著缩短了推理时间。

开源信息

开源平台：该模型可在HuggingFace、GitHub以及阿里云的魔搭社区找到，具体地址如下：
- HuggingFace：https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P
- 魔搭社区：https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P
- GitHub：https://github.com/Wan-Video/Wan2.1
开源协议：采用Apache 2.0协议开源，全球开发者均可通过官方渠道直接下载并体验。
体验入口：用户也可以在通义万相官网直接免费体验该模型，官网地址为：https://tongyi.aliyun.com/wanxiang/videoCreation。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。