首页 > 快讯 > HunyuanVideo-Avatar腾讯混元开源语音数字人模型：通过图像与音频结合，实现图像主角的语音与歌唱效果。

HunyuanVideo-Avatar腾讯混元开源语音数字人模型：通过图像与音频结合，实现图像主角的语音与歌唱效果。

发布时间：2025-05-28 13:57:09 | 责任编辑：吴昊 | 浏览量：323 次

《HunyuanVideo-Avatar腾讯混元开源语音数字人模型：通过图像与音频结合，实现图像主角的语音与歌唱效果。》相关软件官网

腾讯发布了一款创新技术 ——HunyuanVideo-Avatar 语音数字人模型，并将其开源。这一技术能够仅凭一张图片和一段音频，生成自然、真实的数字人说话或唱歌视频，标志着短视频创作进入了全新阶段。
HunyuanVideo-Avatar 模型的核心功能在于其智能理解能力。用户只需上传一张人物图像和相应的音频，模型便能自动分析音频中的情感和人物所处环境。例如，如果上传一张在海滩上弹吉他的女性的照片，并搭配抒情音乐，模型将自动生成一段该女性在弹唱的动态视频，展现自然的表情、唇形同步及全身动作。
适用广泛的应用场景
这一技术的应用场景非常广泛，涵盖短视频创作、电商广告等多种领域。HunyuanVideo-Avatar 能够生成各种场景下的对话、表演等视频片段，极大地降低了视频制作的时间和成本。无论是快速制作产品介绍视频，还是进行多人互动广告，HunyuanVideo-Avatar 都能提供出色的支持。
业内领先的效果
在技术方面，HunyuanVideo-Avatar 展现了显著的优势。与传统工具相比，HunyuanVideo-Avatar 不仅支持头部驱动，还能实现半身和全身场景的表现，提升视频的真实感和表现力。同时，模型在主体一致性和音画同步方面的表现超越了多种开闭源方案，处于业内顶尖水平。
多样化的风格支持
HunyuanVideo-Avatar 支持多种风格、物种和多人场景，包括赛博朋克、2D 动漫和中国水墨画等。创作者可以轻松上传卡通角色或虚拟形象，生成风格化的动态视频，满足动漫、游戏等领域的创作需求。此外，在多人互动场景中，模型能够精准驱动多个角色，确保各角色的唇形、表情和动作与音频完美同步，实现自然的互动。
这一切的背后是腾讯混元团队与腾讯音乐天琴实验室共同研发的技术创新，包括角色图像注入模块、多模态扩散 Transformer 架构、音频情感模块和面部感知音频适配器等，确保了视频的动态性和角色一致性。
HunyuanVideo-Avatar 的单主体能力已在腾讯混元官网上线，用户可以通过 “模型广场” 体验这一技术。目前支持上传不超过14秒的音频生成视频，未来还将逐步推出更多功能。
体验入口:https://hunyuan.tencent.com/modelSquare/home/play?modelId=126
项目主页:https://hunyuanvideo-avatar.github.io

HunyuanVideo-Avatar腾讯混元开源语音数字人模型：通过图像与音频结合，实现图像主角的语音与歌唱效果。-项目/模型网址:
GitHub

HunyuanVideo-Avatar腾讯混元开源语音数字人模型：通过图像与音频结合，实现图像主角的语音与歌唱效果。

腾讯混元开源语音数字人模型 HunyuanVideo-Avatar 是一款由腾讯混元视频大模型与腾讯音乐天琴实验室的 MuseV 技术联合研发的创新性产品。该模型能够仅凭一张图片和一段音频，生成自然、真实的数字人说话或唱歌视频。

核心功能

用户只需上传一张人物图像和相应的音频，模型会自动分析图片与音频信息，理解人物所处的环境以及音频所传递的情感，进而让图中人物自然地说话或唱歌，生成包含自然表情、唇形同步及全身动作的视频。例如，上传一张在海滩上弹吉他的女性照片，并搭配抒情音乐，模型将生成该女性在弹唱的动态视频。

技术优势

多模态融合：整合了文本、图像、音频等多种输入方式，支持从头肩到全身的各种景别，以及多风格、多物种和双人场景。
高一致性和动态性：生成的视频在主体一致性和音画同步方面表现出色，处于业内顶尖水平。
情感理解：模型能够理解音频中的情感色彩，使生成的视频更具表现力。

应用场景

HunyuanVideo-Avatar 广泛适用于短视频创作、电商广告、在线教育、虚拟客服、数字人直播等领域。例如：

在短视频创作中，创作者可以快速生成对话、表演等视频片段，降低制作时间和成本。
在电商广告中，可用于制作产品介绍视频。
在教育领域，可用于生成虚拟教师讲解视频。

开源信息

HunyuanVideo-Avatar 已在腾讯混元官网开放体验，目前支持上传不超过 14 秒的音频生成视频。开源内容包括权重、推理代码和 LoRA 训练代码，支持开发者基于混元训练专属 LoRA 等衍生模型。感兴趣的用户可以通过以下链接体验和下载：

体验入口：https://hunyuan.tencent.com/modelSquare/home/play?modelId=126
项目主页：https://hunyuanvideo-avatar.github.io
GitHub：https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。