首页 > 快讯 > Kyutai Labs 推出开源项目 Kyutai TTS: 高效流式文本转语音解决方案

Kyutai Labs 推出开源项目 Kyutai TTS: 高效流式文本转语音解决方案

发布时间：2025-07-04 11:06:42 | 责任编辑：张毅 | 浏览量：558 次

7月3日，法国AI研究机构Kyutai Labs宣布开源其最新文本转语音（TTS）技术——Kyutai TTS，为开发者与AI爱好者带来高效、实时的语音生成解决方案。Kyutai TTS以低延迟与高保真声音为亮点，支持文本流式传输，无需完整文本即可开始生成音频，特别适合实时交互场景。
Kyutai TTS在性能上表现卓越。使用单块NVIDIA L40S GPU，该模型可同时处理32个请求，延迟仅为350毫秒。此外，系统不仅生成高质量音频，还能输出单词的精确时间戳，方便实时字幕生成或交互式应用，如Unmute平台的中断处理功能。
在语言支持与质量评估方面，Kyutai TTS目前支持英语和法语，单词错误率（WER）分别为2.82和3.29，展现出高准确度。说话者相似度达到77.1%(英语)和78.7%(法语)，确保语音自然且接近原始样本。模型还能处理长篇文章，突破传统TTS的30秒限制，适合新闻、书籍等长篇内容生成。
Kyutai TTS采用延迟流建模（DSM）架构，结合Rust服务器实现高效批处理，已在GitHub和Hugging Face开放源码与模型权重，助力全球开发者推动语音技术创新。
开源地址：https://kyutai.org/next/tts

Kyutai Labs 开源的 Kyutai TTS 是一项低延迟流式文本转语音技术，以下是其详细介绍：

核心特点

低延迟流式处理：Kyutai TTS 支持文本流式处理，即使在完整文本响应生成之前即可开始语音输出，进一步降低了延迟。这种流式处理方式使得语音合成能够实时进行，为用户提供了更流畅的交互体验。
模块化设计：Kyutai TTS 是 Kyutai Labs 推出的 Unmute 项目的一部分，Unmute 是一款高度模块化的语音 AI 工具。开发者可以将 Unmute 包装在任何文本大语言模型（LLM）上，快速为其添加语音输出（TTS）功能，而无需重新训练模型。这种模块化设计极大地提升了系统的灵活性和可定制性。
个性化语音克隆：开发者可以通过上传 10 秒的语音样本，条件化 TTS 模型，生成与特定声音和语调相匹配的语音输出。这使得用户可以根据自己的需求创建高度个性化的语音交互体验。

技术原理

Kyutai TTS 基于延迟流建模（Delayed Streams Modeling）技术。该技术将语音和文本看作两个时间对齐的数据流，文本流被“延迟”几个时间帧，允许模型“看见未来一点的语音”来提高准确性。这种建模方式不仅提高了语音合成的准确性，还支持了流式处理。

应用场景

智能语音助手：为智能语音助手提供实时语音输出能力，提升用户体验。
在线教育：教师和学生可以通过语音实时互动，系统快速响应，提供个性化学习体验。
智能客服：客户用语音提问，系统快速回答，支持多语言，提升服务效率。
游戏和娱乐：开发语音互动游戏，创建虚拟角色，增强沉浸感和趣味性。
企业会议：实时语音翻译，自动会议记录，方便跨国会议和会后整理。

开源计划

Kyutai Labs 计划在未来几周内开源 Unmute 的 TTS 模型以及相关代码。这将为开发者提供更多的自由度和灵活性，推动语音 AI 技术的普及与创新。

Kyutai TTS 的推出标志着语音 AI 技术在低延迟和流式处理方面取得了显著进展，为语音交互应用带来了更高效、更自然的体验。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。