革新视频制作格局!阿里巴巴VACE模型融合处理文字、图片与视频输入
发布时间:2025-04-23 10:56:28 | 责任编辑:张毅 | 浏览量:49 次
阿里巴巴集团的科学家们推出了 VACE,这是一种旨在统一处理广泛视频生成和编辑任务的通用人工智能模型。
VACE 的核心是增强的扩散 Transformer 架构,其创新之处在于“视频条件单元”(VCU)这一新型输入格式。VCU 将文本提示、参考图像或视频序列以及空间蒙版等多种模态输入提炼为统一的表示,并通过专门的机制协调不同输入,避免冲突。
概念解耦实现精细控制
VACE 采用“概念解耦”技术将图像分割为可编辑和固定区域,实现对修改内容和保留内容的精细控制。视觉信息通过遮罩划分为“活性”和“非活性”区域,并嵌入共享特征空间,与文本输入结合。为保证视频帧间一致性,特征映射到与扩散 Transformer 结构匹配的潜在空间,时间嵌入层确保模型理解序列的时间连贯性,注意力机制则关联不同模态和时间步的特征。
VACE 支持文本到视频生成、基于参考的视频合成、视频到视频编辑以及基于遮罩的目标编辑等四大核心任务,应用场景广泛,包括人物移除、动画角色生成、物体替换和背景扩展等。
模型训练与评估
研究团队首先专注于绘画和涂鸦以支持文本到视频,然后逐步加入参考图像并转向更高级的编辑任务。训练数据来源于互联网视频,经过自动过滤、分割和深度、姿态注释增强。为了评估 VACE 的性能,研究人员创建了一个包含480个案例、涵盖12个视频编辑任务的基准。实验结果表明,VACE 在定量指标和用户研究方面均优于专门的开源模型,但在参考到视频的生成方面仍与 Vidu 和 Kling 等商业模型存在差距。
阿里巴巴的研究人员认为 VACE 是通往通用、多模态视频模型的重要一步,未来将通过更大的数据集和更多算力进行扩展。该模型的部分代码将在 GitHub 上开源。VACE 与阿里巴巴近期发布的一系列大型语言模型(如 Qwen 系列)共同构成了其宏大的人工智能战略布局。包括字节跳动在内的其他中国科技巨头也在积极发展视频人工智能技术,部分成果已赶超西方同类产品。
阿里巴巴通义实验室推出的 VACE(Video Creation and Editing)模型是一种创新的视频生成与编辑框架,旨在通过统一的模型架构处理文本、图像和视频输入,实现多种视频创作和编辑任务。
核心功能
VACE 模型的主要功能包括:
-
文本到视频生成:根据文本提示直接生成视频。
-
参考到视频生成:结合文本和参考图像生成视频。
-
视频扩展:基于现有视频片段生成新的开头或结尾。
-
视频到视频编辑:对输入视频进行整体风格转换,如色彩化、风格化。
-
遮罩视频编辑:在指定区域进行修复、扩展等操作。
-
主体移除与重建:移除视频中的特定主体并填充背景。
-
任务组合:支持多种任务的灵活组合,例如参考生成+主体替换、姿态控制+视频扩展。
技术原理
VACE 的核心技术包括:
-
视频条件单元(VCU):将文本、图像、视频和遮罩等多种模态输入整合为统一的条件单元,支持多种任务的灵活组合。
-
概念解耦策略:自动分离视频中的元素(如人物、背景、动作),支持独立修改。
-
上下文适配器结构:基于扩散 Transformer 架构,动态调整生成策略以适应不同任务。
-
扩散模型:通过逐步去噪的方式生成高质量的视频内容。
创新点
VACE 的创新之处在于其统一的框架设计,能够将多种视频生成和编辑任务整合到一个模型中,减少了服务部署和用户交互的成本。此外,VACE 在性能上表现出色,能够处理长视频、多条件和参考生成等复杂场景。
应用场景
VACE 的应用场景非常广泛,包括:
-
内容创作:短视频创作者可以通过文本和参考图快速生成素材框架,再通过局部编辑细化作品。
-
影视工业:实现特效制作、瑕疵修复的自动化,降低后期制作成本。
-
社交平台:支持用户一键生成个性化动画内容。
-
教育培训:教师可以基于课件图文生成教学视频,学生可以创作互动式学习素材。
VACE 的推出标志着视频生成与编辑技术迈入了一个新的阶段,为视频内容创作开辟了新的路径。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。