首页 > 快讯 > 仅需0.33秒即可创建1秒音频!Muyan-TTS 开源发布,完美匹配播客及有声读物应用场景

仅需0.33秒即可创建1秒音频!Muyan-TTS 开源发布,完美匹配播客及有声读物应用场景

发布时间:2025-05-13 09:12:47 | 责任编辑:张毅 | 浏览量:42 次

开源语音合成迎来新突破!近日发布的开源 TTS 模型 Muyan-TTS 专为播客、有声书、长视频等场景设计,具备零样本语音合成、极速生成与高连贯性朗读能力,是当前最适合批量化长语音生成的模型之一。
Muyan-TTS 基于超10万小时播客数据预训练,仅需 0.33秒即可生成1秒高质量音频,支持无需打断地朗读数分钟文本,语音自然流畅。更支持说话人定制,任意声音克隆,一键生成具有个性化语气与节奏的语音内容。
模型已开放至 Hugging Face,支持离线部署,开发者可轻松本地推理,适配多样应用场景:播客生成、有声书制作、英文视频配音、AI角色朗读、智能音箱播报等,极大提升内容生产效率。
感兴趣的开发者可前往 Hugging Face 获取模型权重与示例代码,开启你的 AI 语音创作之旅。
GitHub 开源地址:https://github.com/MYZY-AI/Muyan-TTS
HF 模型地址:https://huggingface.co/MYZY-AI/Muyan-TTS

仅需0.33秒即可创建1秒音频!Muyan-TTS 开源发布,完美匹配播客及有声读物应用场景

Muyan-TTS 是一款开源的文本转语音(TTS)模型,专为播客和有声书等长音频场景设计,具有以下特点和优势:

高效的音频生成能力

  • 推理速度快:Muyan-TTS 每秒音频的生成仅需 0.33 秒推理时间,是目前所有开源 TTS 模型中最快的。

  • 适合实时交互:其高效的推理速度使其能够满足播客、有声书等长音频场景对实时性的要求。

出色的音频质量

  • 自然度高:经过超过 10 万小时的高质量播客音频数据预训练,Muyan-TTS 能够生成富有表现力且连贯的语音,语音质量评分(MOS)处于开源模型的一线水平。

  • 支持个性化定制:通过几十分钟的单人语音数据微调,Muyan-TTS 可以生成特定说话人的语音,满足播客和有声书对特定音色的需求。

开源与二次开发友好

  • 完全开源:Muyan-TTS 提供了完整的训练代码、数据处理流程和模型权重,开发者可以自由访问、修改和重新训练模型。

  • 易于定制:开源的训练方法和灵活的微调能力,使得开发者能够根据实际业务场景对模型进行定制化改造。

适用场景

  • 播客制作:可以为播客提供个性化的叙述声音,自动生成摘要的语音旁白,或为重复出现的片段创建一致的主持人声音。

  • 有声书生成:能够将长篇文本文章或书籍转换为自然流畅的有声读物。

限制

  • 仅支持英语:由于训练数据主要为英语,Muyan-TTS 当前版本仅支持英语输入。

  • 不支持流式推理:依赖于解码器中的 G2P 模块,需要完整的音素序列才能进行合成。

Muyan-TTS 的开源地址为:https://github.com/MYZY-AI/Muyan-TTS

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复