首页 > 快讯 > 仅需0.33秒即可创建1秒音频！Muyan-TTS 开源发布，完美匹配播客及有声读物应用场景

仅需0.33秒即可创建1秒音频！Muyan-TTS 开源发布，完美匹配播客及有声读物应用场景

发布时间：2025-05-13 09:12:47 | 责任编辑：张毅 | 浏览量：266 次

开源语音合成迎来新突破!近日发布的开源 TTS 模型 Muyan-TTS 专为播客、有声书、长视频等场景设计，具备零样本语音合成、极速生成与高连贯性朗读能力，是当前最适合批量化长语音生成的模型之一。
Muyan-TTS 基于超10万小时播客数据预训练，仅需 0.33秒即可生成1秒高质量音频，支持无需打断地朗读数分钟文本，语音自然流畅。更支持说话人定制，任意声音克隆，一键生成具有个性化语气与节奏的语音内容。
模型已开放至 Hugging Face，支持离线部署，开发者可轻松本地推理，适配多样应用场景:播客生成、有声书制作、英文视频配音、AI角色朗读、智能音箱播报等，极大提升内容生产效率。
感兴趣的开发者可前往 Hugging Face 获取模型权重与示例代码，开启你的 AI 语音创作之旅。
GitHub 开源地址:https://github.com/MYZY-AI/Muyan-TTS
HF 模型地址:https://huggingface.co/MYZY-AI/Muyan-TTS

Muyan-TTS 是一款开源的文本转语音（TTS）模型，专为播客和有声书等长音频场景设计，具有以下特点和优势：

高效的音频生成能力

推理速度快：Muyan-TTS 每秒音频的生成仅需 0.33 秒推理时间，是目前所有开源 TTS 模型中最快的。
适合实时交互：其高效的推理速度使其能够满足播客、有声书等长音频场景对实时性的要求。

出色的音频质量

自然度高：经过超过 10 万小时的高质量播客音频数据预训练，Muyan-TTS 能够生成富有表现力且连贯的语音，语音质量评分（MOS）处于开源模型的一线水平。
支持个性化定制：通过几十分钟的单人语音数据微调，Muyan-TTS 可以生成特定说话人的语音，满足播客和有声书对特定音色的需求。

开源与二次开发友好

完全开源：Muyan-TTS 提供了完整的训练代码、数据处理流程和模型权重，开发者可以自由访问、修改和重新训练模型。
易于定制：开源的训练方法和灵活的微调能力，使得开发者能够根据实际业务场景对模型进行定制化改造。

适用场景

播客制作：可以为播客提供个性化的叙述声音，自动生成摘要的语音旁白，或为重复出现的片段创建一致的主持人声音。
有声书生成：能够将长篇文本文章或书籍转换为自然流畅的有声读物。

限制

仅支持英语：由于训练数据主要为英语，Muyan-TTS 当前版本仅支持英语输入。
不支持流式推理：依赖于解码器中的 G2P 模块，需要完整的音素序列才能进行合成。

Muyan-TTS 的开源地址为：https://github.com/MYZY-AI/Muyan-TTS。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。