图像+音频驱动的口播视频生成！谷歌提出VLOGGER！

发布时间：2024-03-15 08:00:00 | 责任编辑：字母汇 | 浏览量：243 次

原文始发于微信公众号（AI妙妙房）：图像+音频驱动的口播视频生成！谷歌提出VLOGGER！

论文名：VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

论文链接：https://arxiv.org/pdf/2403.08764.pdf

开源地址：https://enriccorona.github.io/vlogger/

图像+音频驱动的口播视频生成！谷歌提出VLOGGER！

导读

内容创作、娱乐或游戏等行业都对人工合成有很高的需求。然而，人类逼真视频的创作仍然很复杂，而且人工制品已经成熟。这需要大量的手动干预才能取得实际结果。然而，完全自动化不仅可以简化创意流程，还可以实现全新的用例，如增强的在线交流、教育或个性化虚拟助理等。考虑到聊天代理最近的成功，后者尤其重要。研究表明，这种解决方案被认为不够自然，不足以培养同理心，作者认为，拟人化和行为现实主义（e.g.凝视、面部表情、全身运动）对于创造社交形象和引发用户的同理心反应至关重要。这些功能将导致在客户服务、远程医疗、教育或人机交互等领域广泛采用代理。

简介

我们提出了一种从个人的单个输入图像生成音频驱动的人类视频的方法VLOGGER，该方法建立在最近生成扩散模型的成功基础上。我们的方法包括1）一个随机的人三维运动扩散模型，以及2）一个新颖的基于扩散的架构，该架构通过空间和时间控制来增强文本到图像模型。这支持生成可变长度的高质量视频，易于通过人脸和身体的高级表示进行控制。与之前的工作相比，我们的方法不需要对每个人进行训练，不依赖于面部检测和裁剪，生成完整的图像（不仅仅是面部或嘴唇），并考虑了广泛的场景（e.g.可见躯干或不同的主体身份），这些场景对正确合成交流的人类至关重要。我们还策划MENTOR了一个新的、多样化的数据集，该数据集具有三维姿势和表情注释，比以前的数据集（800000个身份）大一个数量级，并具有动态手势，我们在该数据集上进行了培训并做出了主要技术贡献。

VLOGGER在三个公共基准测试中，考虑到图像质量、身份保护和时间一致性，同时还生成上半身手势，优于最先进的方法。我们分析了的多个多样性指标的VLOGGER性能，表明我们的架构选择和效益的MENTOR使用在规模上训练了一个公平和公正的模型。最后，我们展示了在视频编辑和个性化方面的应用。

方法与模型

我们的目标是生成一个可变长度的真实感视频V，合成目标人物的讲话，以及逼真的头部运动和手势。VLOGGER的框架如图所示。

图像+音频驱动的口播视频生成！谷歌提出VLOGGER！

VLOGGER是一种基于随机扩散模型的两阶段流水线，用于表示从语音到视频的一对多映射。第一网络以采样率S将音频波形a∈RNS作为输入，以生成负责目标视频长度N上的凝视、面部表情和3D姿势的中间身体运动控制C。第二个网络是时间图像到图像转换模型，它扩展了大型图像扩散模型，采用预测的身体控制来生成相应的帧。为了使这个过程符合特定的身份，网络还拍摄了一个人的参考图像。我们在新引入MENTOR的数据集上进行训练VLOGGER。

音频驱动的运动生成

我们的流水线M的第一个网络被设计用于基于输入语音来预测驾驶运动。我们还考虑通过文本到语音模型将输入文本转换为波形，并将产生的音频表示为标准梅尔频谱图。M基于在时间维度上具有四个多头注意力层的transformer架构。我们包括对帧数和扩散步骤的位置编码，以及输入音频的嵌入MLP和扩散步骤。在每一帧中，我们使用因果掩码使模型只关注前一帧。该模型使用可变长度的视频进行训练，以生成超长序列，如e.g. TalkingHead-1KH数据集。

我们依靠统计和表达的3D身体模型的估计参数来产生合成视频的中间控制表示。这些模型同时考虑了面部表情和身体运动，为人类合成更具表现力和动态的手势打开了大门。我们任务运动生成网络基于帧i中的输入音频ai来预测面部和身体参数M(ai)={θe i,∆θb i}。特别地，该模型生成身体姿势θb i的表达式θe i和残差。通过预测位移，i.e. ∆θb i我们使模型能够为目标对象拍摄具有θb i = θb ref +∆θb i参考姿势θb ref的输入图像，并为帧1 ≤ i ≤ N相对地设置人物动画。人在几何域中的身份是由体型代码建模的。在训练和测试过程中，我们使用通过将参数身体模型拟合到输入图像而获得的估计的3D形状参数。为了利用基于CNN的架构的2D/3D预测，我们使用预测的表达式和姿势参数对模型进行姿势设置，并将姿势设置体的模板顶点位置光栅化为密集表示，以获得密集掩模Cd i 1≤i≤N ∈RH× W× 3。我们还为Nc不同的语义类光栅化身体的语义区域。{Cm i }1≤i≤N ∈ {0,1}H× W× Nc

此外，以前的人脸再现作品通常依赖于扭曲的图像，但在基于扩散的人类动画架构中，这些图像被忽视了。我们建议弥合这两种表示之间的差距，并使用扭曲的图像来指导生成过程，我们注意到这有助于网络的任务，并有助于保持主体身份（请参阅Tab. 3）。我们为参考图像中可见的每个身体顶点指定一种像素颜色，并在每个新帧中渲染身体，从而获得部分扭曲{Cw i }1≤i≤N ∈ RH× W× 3。对于所有渲染，光栅化过程假设使用全视角相机，具有从训练视频或参考图像推断的对角视场。

生成逼真的会说话和会移动的人类

我们的下一个目标是为一个人的输入图像Iref设置动画，使其遵循先前预测的身体和面部运动，该运动由语义、稀疏和密集的遮罩C表示。基于这些基于图像的控制，我们提出了最先进的扩散模型的时间感知扩展。受ControlNet的启发，我们冻结了初始训练的模型，并制作了其编码层的零初始化可训练副本，该编码层接受输入的时间控制C。在每个下采样块的第一层之后和第二次GroupNorm激活之前，我们在时域中交织1d个卷积层，如所示。该网络通过获取N连续的帧和控件进行训练，并负责根据输入控件生成参考人物的动画短片。

我们在数据集上训练我们的方法，该MENTOR数据集由独特人类受试者的全长视频组成。因为在训练过程中，网络会取一系列连续的帧和人的任意参考图像Iref，所以理论上我们可以指定任何视频帧作为参考。在实践中，我们对参考进行采样，使其距离目标片段更远（在时间上），因为更近的例子会使训练变得琐碎，并提供更少的泛化潜力。网络分两个阶段进行训练，首先在单帧上学习新的控制层，然后通过添加时间分量在视频上进行训练。这使得能够在第一阶段使用大批量，并更快地学习头部重演任务。对于400k两个阶段中批量大小为128的步骤，我们以5e-5的学习率训练图像模型。

MENTOR数据集

我们从一个庞大的内部视频库中整理数据集，其中包含一个扬声器，主要面向镜头，从躯干向上，主要用英语交流。视频中24包含240的帧为24fps（10秒剪辑），音频为16kHz。

我们的实验发现，较低和较高分辨率图像（例如， SD的128 × 128和1024 × 1024）更难训练。为了缓解这一现象，我们使用一个简单的概率函数来在不同训练分辨率下对图像进行采样。该函数定义为p(x) = |x −r|2/ N i |xi −r|2，其中r表示标准分辨率（例如， SD的512 ×512）。这可以提高在多分辨率训练过程中选择较低或较高分辨率图像的概率。

为了模拟全身交流的人类，我们估计了三维身体关节和手，并通过最小化连续帧之间的投影误差和时间差来拟合统计关节三维身体模型。我们过滤掉背景发生有意义变化、面部或身体仅被部分检测到或其估计不稳定、手完全未被检测到（e.g.在人类抓握和操纵物体的情况下）或音频质量低的视频。这一过程产生了一个超过8M秒（2.2K小时）和800K身份的训练集，以及一个120小时和∼4K身份的测试集，使其成为迄今为止在身份和长度方面使用的最大数据集，分辨率更高。此外，该MENTOR数据集包含广泛多样的受试者（e.g.肤色、年龄）、观点或身体可见性。中Sup.Mat.提供了统计数据以及与现有数据集的更广泛比较。我们的目标是向更广泛的研究社区发布精心策划的视频ID、面部贴合度和估计的身体姿势。

实验与结果

我们使用上述数据集上进行训练VLOGGER，基本分辨率为，级联分辨率为和512×512。对HDTF、TalkingHead-1KH 和MENTOR的测试集进行评估。我们还在数据集上分析了我们的方法在不同场景中的性能，并报告了它在几个多样性指标（如年龄、感知性别或肤色）中相对于基线的性能。

表1。HDTF和和和TalkingHead-1KH数数数据据据集集集的的的定定定量量量评评评估

图像+音频驱动的口播视频生成！谷歌提出VLOGGER！

可视化结果

图像+音频驱动的口播视频生成！谷歌提出VLOGGER！

总结

在本文中，我们已经提出了一种VLOGGER方法，用于从单个输入图像中合成人类视频，包括面部和身体，该图像由音频或文本调节。VLOGGER是作为基于控制的扩散模型的时间扩展构建的，具有基于三维人体头部和身体姿势表示的底层支架，可以生成可变长度的高质量动画。我们引入了一个多样化的大规模数据集（比以前的数据集大一个数量级），并验证了在该存储库和其他多个存储库上的VLOGGER性能，表明它在人脸生成任务上优于以前的最先进技术，并且我们的方法在不同的多样性轴上更稳健。

图像+音频驱动的口播视频生成！谷歌提出VLOGGER！

最新Ai信息

最新Ai工具

热门AI推荐