首页 > 快讯 > 微软推出开源 VibeVoice-1.5B 模型：实现90分钟的超长语音合成里程碑

微软推出开源 VibeVoice-1.5B 模型：实现90分钟的超长语音合成里程碑

发布时间：2025-08-26 09:03:28 | 责任编辑：吴昊 | 浏览量：407 次

近日，微软研究院正式开源了其最新音频模型 ——VibeVoice-1.5B。该模型在语音合成技术上实现了多项重大突破，使得合成的语音更自然、时长更长、效果更优。
VibeVoice-1.5B 具备一次性合成90分钟超长语音的能力，这在以往的语音合成模型中是罕见的。之前，多数模型只能合成60分钟以内的语音，且在超过30分钟时容易出现音色漂移和语义断裂的问题。此模型还支持最多四位发言人发言，显著提高了多说话人的合成效果，而以往的开源模型最多只能支持两位发言者。此外，VibeVoice 还实现了对24kHz 原始音频的3200倍压缩，大大提高了压缩效率，且保留了高保真的语音效果。
VibeVoice 模型的核心在于其独特的双 tokenizer 架构。与传统 TTS 模型多依赖单一 tokenizer 提取特征不同，VibeVoice 创新性地引入了声学 tokenizer 与语义 tokenizer 的协同工作机制，解决了音色与语义不匹配的问题。声学 tokenizer 专注于保留声音特征并实现极致压缩，而语义 tokenizer 则负责提取与文本语义相一致的特征，确保合成语音的情感与文本内容一致。
在训练方面，VibeVoice 采用了课程学习策略，将输入序列长度逐步增加，从而避免了因处理超长序列而导致的训练失败。其训练过程中的声学 tokenizer 与语义 tokenizer 参数保持不变，确保了特征提取模块的稳定性，进而缩短了训练周期。
VibeVoice-1.5B 的开源不仅为语音合成领域带来了新的技术突破，也为未来更大参数模型的发布奠定了基础。对于音频处理和语音合成的研究人员和开发者来说，这是一个值得关注的创新进展。
开源地址:https://huggingface.co/microsoft/VibeVoice-1.5B
在线demo:https://aka.ms/VibeVoice-Demo
划重点:
🔊 VibeVoice-1.5B 模型可一次性合成90分钟的超长语音，支持最多四位发言人。
💾 该模型实现3200倍的音频压缩率，保持高保真语音效果。
🤖 采用双 tokenizer 架构，解决音色与语义不匹配的问题。

微软研究院今天凌晨正式开源了新一代语音合成模型 VibeVoice-1.5B，一口气带来了多项被称为“语音界 Sora”级的突破

。

核心亮点一览

超长时长：首次实现单次连续合成 90 分钟高保真语音，远超此前主流模型 60 分钟的上限，且在 30 分钟后不会出现音色漂移或语义断裂

。
多人对话：最多支持 4 位不同说话人自然轮替（此前开源模型普遍只支持 2 人）

。
极致压缩：对 24 kHz 原始音频实现 3200 倍累计压缩，压缩效率是主流 Encodec 模型的 80 倍，仍能保持高保真音质

。
双 Tokenizer 架构：首创声学 tokenizer + 语义 tokenizer 协同工作，解决传统单一 tokenizer 带来的音色-语义不匹配难题

。
开源即用：模型权重与代码已上传 Hugging Face，并配有在线 Demo 可直接体验

。

技术细节速览

声学 tokenizer：基于变分自编码器与 1D 深度可分离因果卷积，7 阶段 Transformer 下采样，实现 3200 倍压缩率，单端参数仅 3.4 亿

。
语义 tokenizer：去掉 VAE，采用“语音识别代理任务”训练，确保文本语义与语音语调高度对齐

。
大语言模型：选用预训练 Qwen2.5 作为序列建模核心，通过“角色-语音-文本”交错输入实现多说话人长音频的上下文理解

。
训练策略：采用课程学习，逐步将输入长度从 4 K token 提升到 65 K token（对应 90 分钟音频），训练时间缩短 50%

。

应用示例

官方已放出多段 90 分钟左右的合成音频 Demo，包括：

4 人英语播客（带背景音乐与英汉切换）
单女声《西游记》二创故事
3 人科技资讯播报（GPT-5 发布）
2 人篮球话题讨论等

。

获取方式

开源地址：Hugging Face microsoft/VibeVoice-1.5B
在线体验：aka.ms/VibeVoice-Demo

微软表示，VibeVoice-1.5B 只是“试水”，未来还将开源更大参数的语音模型，值得持续关注

。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： Google NotebookLM迎来重大更新：开启80种语言支持，全球学习者体验实现飞跃式革新

下一篇：国产AI行业取得新进展！DeepSeek-V3.1高级模型正式亮相

微软推出开源 VibeVoice-1.5B 模型：实现90分钟的超长语音合成里程碑

核心亮点一览

技术细节速览

应用示例

获取方式

最新Ai信息

最新Ai工具

热门AI推荐