首页 > 快讯 > 新型数字人生成模型由阿里通义实验室发布，实现更逼真的音视频合成效果！

新型数字人生成模型由阿里通义实验室发布，实现更逼真的音视频合成效果！

发布时间：2025-04-15 15:11:07 | 责任编辑：字母汇 | 浏览量：96 次

阿里通义实验室近日发布了一款名为 “OmniTalker” 的新型数字人视频生成大模型。这一创新模型的核心在于其能够通过上传一段参考视频，实现对视频中人物的表情、声音和说话风格的精准模仿。相较于传统的数字人制作流程，OmniTalker 显著降低了制作成本，同时提升了生成内容的真实感和互动体验，满足了广泛的应用需求。
OmniTalker 的使用十分简便，用户只需在平台上上传一段参考视频，就能生成与之同步的音频和视频内容。目前，该项目已在魔搭社区和 HuggingFace 等平台开放体验，并提供了多种模板供用户自由使用，完全免费。为了让人们更直观地感受到这一技术的强大，阿里通义实验室展示了几段示例视频，观众几乎无法分辨出视频中的人物是由 AI 生成的还是实拍的，这让人感到震撼。
该模型的研发背景源于近年来语言大模型的迅猛发展，虚拟主播和虚拟助手的应用越来越广泛。然而，以往的文本驱动数字人生成研究相对较少，且传统方法通常采用级联流水线的方式，容易导致音画不同步、说话风格不一致等问题。OmniTalker 通过引入双分支 DiT 架构，能够同时从文本和参考视频中生成同步的语音和视频，从而克服了这些技术瓶颈。
在模型结构方面，OmniTalker 的设计由三大核心部分构成。首先，模型能够提取音频特征和视觉特征，确保两者在时间上的完美同步;其次，采用多模态特征融合模块，提升了音频和视频的整合效果;最后，经过预训练的解码器能够高效将合成的音视频特征转换为原始格式，保证输出的高质量。
通过实验数据的对比，OmniTalker 在音频生成和视觉效果方面都表现出色，显示出更低的错误率和更高的声音相似度，进一步证明了其在零样本条件下的强大能力。
项目页:
https://top.aibase.com/tool/omnitalker
论文:https://arxiv.org/abs/2504.02433v1
体验页:https://huggingface.co/spaces/Mrwrichard/OmniTalker

阿里通义实验室近日发布了一款名为“OmniTalker”的新型数字人视频生成大模型。该模型的核心优势在于能够通过上传一段参考视频，精准地模仿视频中人物的表情、声音和说话风格。与传统数字人制作流程相比，OmniTalker显著降低了制作成本，同时提升了生成内容的真实感和互动体验。

技术亮点

双分支DiT架构：OmniTalker采用双分支架构，音频分支从文本合成梅尔频谱图，视觉分支预测精细的头部姿态和面部动态。这种架构确保了音频和视频在时间上的同步性和风格上的一致性。
多模态特征融合：模型通过多模态特征融合模块，将音频和视频特征进行整合，进一步提升了音视频的同步效果。
预训练解码器：经过预训练的解码器能够高效地将合成的音视频特征转换为原始格式，保证输出的高质量。

应用场景

OmniTalker在多个领域具有广泛的应用前景，例如虚拟主播、虚拟助手等。其生成的音视频内容几乎无法与实拍视频区分，这使得该技术在娱乐、教育、客服等行业具有巨大的潜力。

开放体验

目前，OmniTalker已在魔搭社区和HuggingFace等平台开放体验，并提供了多种模板供用户免费使用。感兴趣的用户可以访问以下链接进行体验：

项目页：OmniTalker 项目页
体验页：OmniTalker 体验页

实验结果

实验数据显示，OmniTalker在音频生成和视觉效果方面表现出色，显示出更低的错误率和更高的声音相似度。在视觉质量评估中，OmniTalker在多个核心指标上达到了业界领先水平，尤其是在保持面部运动风格和头部姿态方面表现出色。

总结

OmniTalker的推出标志着数字人生成技术的重大突破。其创新的架构和强大的功能使其在音视频合成领域具有显著优势，为虚拟人物的生成和应用提供了更高效、更真实的解决方案。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。