首页 > 快讯 > 腾讯发布HunyuanVideo-Foley：一款全链条开源视频音效生成模型

腾讯发布HunyuanVideo-Foley：一款全链条开源视频音效生成模型

发布时间：2025-08-28 14:03:43 | 责任编辑：吴昊 | 浏览量：10 次

8月28日，腾讯混元宣布开源端到端视频音效生成模型HunyuanVideo-Foley，这一模型能够通过输入视频和文字为视频匹配电影级音效，为视频创作带来了新的突破。用户只需输入相应的文本描述，HunyuanVideo-Foley就能生成与画面精准匹配的音频，从而打破AI生成视频只能“看”不能“听”的局限，让无声AI视频成为历史。
HunyuanVideo-Foley的出现解决了现有音频生成技术面临的三大痛点。首先，它通过构建大规模高质量TV2A（文本-视频-音频）数据集，提升了模型的泛化能力，使其能够适配人物、动物、自然景观、卡通动画等各类视频，并生成与画面精准匹配的音频。其次，该模型采用创新的双流多模态扩散变换器(MMDiT)架构，能够平衡文本和视频语义，生成层次丰富的复合音效，避免了因过度依赖文本语义而导致的音频与场景脱节问题。最后，HunyuanVideo-Foley通过引入表征对齐(REPA)损失函数，提升了音频生成的质量和稳定性，保证了专业级的音频保真度。
在多个权威评测基准上，HunyuanVideo-Foley的性能表现全面领先，其音频质量指标PQ从6.17提升至6.59，视觉语义对齐指标IB从0.27提升至0.35，时序对齐指标DeSync从0.80优化至0.74，均达到了新的SOTA水平。在主观评测中，该模型在音频质量、语义对齐和时间对齐三个维度的平均意见得分均超过4.1分（满分5分），展现了接近专业水准的音频生成效果。
HunyuanVideo-Foley的开源为行业提供了可复用的技术范式，将加速多模态AI在内容创作领域的落地。短视频创作者可以一键生成场景化音效，电影团队能够快速完成环境音设计，游戏开发者可以高效构建沉浸式听觉体验。
目前，用户可以在Github、HuggingFace下载模型，也可以在混元官网直接体验。
体验入口:https://hunyuan.tencent.com/video/zh?tabIndex=0
项目官网:https://szczesnys.github.io/hunyuanvideo-foley/
代码:https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
技术报告:https://arxiv.org/abs/2508.16930
Hugging Face:https://huggingface.co/tencent/HunyuanVideo-Foley

腾讯混元今天（2025-08-28）正式开源端到端视频音效生成模型 HunyuanVideo-Foley，只需上传一段无声视频并输入文本描述，即可自动生成与画面、文字语义精准匹配的电影级音效，从而让“只能看不能听的 AI 视频”成为历史

。

一、核心能力

看懂画面、读懂文字、配准声音

模型能够同时解析视频内容（人物、物体、场景动作）和文本提示，生成层次丰富的复合音效，而不会因为只依赖文字描述而漏掉画面中的关键声音细节

。
专业级音质

在公开基准 MovieGen-Audio-Bench 上，HunyuanVideo-Foley 的音频质量、视觉语义对齐、时间同步等指标均达到新的 SOTA（state-of-the-art）水平

。
广泛场景适配

适用于人物、动物、自然景观、卡通动画等各种类型的视频，可一键生成环境音、动作音效、背景音乐等，广泛应用于短视频、电影、广告、游戏开发等场景

。

二、技术亮点

10 万小时 TV2A 数据集：通过自研数据处理管道，构建业内最大规模的高质量「文本-视频-音频」三元组数据集，显著提升模型泛化能力

。
双流多模态扩散 Transformer（MMDiT）：利用联合自注意力 + 交叉注意力机制，实现视频、文本、音频三种模态的均衡响应

。
表征对齐（REPA）损失：引入预训练音频特征进行语义与声学指导，显著降低底噪和瑕疵，保证专业级音频保真度

。

三、开源与体验地址

资源	链接
在线体验	https://hunyuan.tencent.com/video/zh?tabIndex=0
代码仓库	https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
HuggingFace	https://huggingface.co/tencent/HunyuanVideo-Foley
技术报告	https://arxiv.org/abs/2508.16930

即日起，开发者可在 GitHub、Hugging Face 免费下载模型权重和推理代码，也可直接在混元官网在线体验

。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：阿里夸克推出AI教育普及计划，为教师与学生提供免费AI会员服务

下一篇：百度智能云推出更新版百舸AI计算平台5.0，全面提升AI计算能力冲破效率壁垒

腾讯发布HunyuanVideo-Foley：一款全链条开源视频音效生成模型

一、核心能力

二、技术亮点

三、开源与体验地址

最新Ai信息

最新Ai工具

热门AI推荐