微软推出开源 VibeVoice-1.5B 模型:实现90分钟的超长语音合成里程碑
发布时间:2025-08-26 09:03:28 | 责任编辑:吴昊 | 浏览量:9 次
近日,微软研究院正式开源了其最新音频模型 ——VibeVoice-1.5B。该模型在语音合成技术上实现了多项重大突破,使得合成的语音更自然、时长更长、效果更优。
VibeVoice-1.5B 具备一次性合成90分钟超长语音的能力,这在以往的语音合成模型中是罕见的。之前,多数模型只能合成60分钟以内的语音,且在超过30分钟时容易出现音色漂移和语义断裂的问题。此模型还支持最多四位发言人发言,显著提高了多说话人的合成效果,而以往的开源模型最多只能支持两位发言者。此外,VibeVoice 还实现了对24kHz 原始音频的3200倍压缩,大大提高了压缩效率,且保留了高保真的语音效果。
VibeVoice 模型的核心在于其独特的双 tokenizer 架构。与传统 TTS 模型多依赖单一 tokenizer 提取特征不同,VibeVoice 创新性地引入了声学 tokenizer 与语义 tokenizer 的协同工作机制,解决了音色与语义不匹配的问题。声学 tokenizer 专注于保留声音特征并实现极致压缩,而语义 tokenizer 则负责提取与文本语义相一致的特征,确保合成语音的情感与文本内容一致。
在训练方面,VibeVoice 采用了课程学习策略,将输入序列长度逐步增加,从而避免了因处理超长序列而导致的训练失败。其训练过程中的声学 tokenizer 与语义 tokenizer 参数保持不变,确保了特征提取模块的稳定性,进而缩短了训练周期。
VibeVoice-1.5B 的开源不仅为语音合成领域带来了新的技术突破,也为未来更大参数模型的发布奠定了基础。对于音频处理和语音合成的研究人员和开发者来说,这是一个值得关注的创新进展。
开源地址:https://huggingface.co/microsoft/VibeVoice-1.5B
在线demo:https://aka.ms/VibeVoice-Demo
划重点:
🔊 VibeVoice-1.5B 模型可一次性合成90分钟的超长语音,支持最多四位发言人。
💾 该模型实现3200倍的音频压缩率,保持高保真语音效果。
🤖 采用双 tokenizer 架构,解决音色与语义不匹配的问题。
。
核心亮点一览
-
超长时长:首次实现单次连续合成 90 分钟高保真语音,远超此前主流模型 60 分钟的上限,且在 30 分钟后不会出现音色漂移或语义断裂
。
-
多人对话:最多支持 4 位不同说话人自然轮替(此前开源模型普遍只支持 2 人)
。
-
极致压缩:对 24 kHz 原始音频实现 3200 倍累计压缩,压缩效率是主流 Encodec 模型的 80 倍,仍能保持高保真音质
。
-
双 Tokenizer 架构:首创声学 tokenizer + 语义 tokenizer 协同工作,解决传统单一 tokenizer 带来的音色-语义不匹配难题
。
-
开源即用:模型权重与代码已上传 Hugging Face,并配有在线 Demo 可直接体验
。
技术细节速览
-
声学 tokenizer:基于变分自编码器与 1D 深度可分离因果卷积,7 阶段 Transformer 下采样,实现 3200 倍压缩率,单端参数仅 3.4 亿
。
-
语义 tokenizer:去掉 VAE,采用“语音识别代理任务”训练,确保文本语义与语音语调高度对齐
。
-
大语言模型:选用预训练 Qwen2.5 作为序列建模核心,通过“角色-语音-文本”交错输入实现多说话人长音频的上下文理解
。
-
训练策略:采用课程学习,逐步将输入长度从 4 K token 提升到 65 K token(对应 90 分钟音频),训练时间缩短 50%
。
应用示例
官方已放出多段 90 分钟左右的合成音频 Demo,包括:
-
4 人英语播客(带背景音乐与英汉切换)
-
单女声《西游记》二创故事
-
3 人科技资讯播报(GPT-5 发布)
-
2 人篮球话题讨论等
。
获取方式
。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。