首页 > 快讯 > 小米重磅发布开放源码！OmniVoice 支持超过 600 种语言的无样本语音克隆 TTS：WER 低至 0.84%、速度提升达 40 倍，罕见语言同样轻易复现

小米重磅发布开放源码！OmniVoice 支持超过 600 种语言的无样本语音克隆 TTS：WER 低至 0.84%、速度提升达 40 倍，罕见语言同样轻易复现

发布时间：2026-04-09 10:10:30 | 责任编辑：张毅 | 浏览量：89 次

近日，小米下一代 Kaldi 团队（k2-fsa）正式开源 OmniVoice，这是一款支持超过600种语言的超大规模多语言零样本文本转语音(TTS)模型，在中英文及多语言基准测试中多项关键指标达到 SOTA(State-of-the-Art)，为语音合成领域带来全新突破。
性能指标领先:中文 WER 低至0.84%，多语言超越主流商用模型
在 Seed-TTS 中文测试集上，OmniVoice 的词错误率（WER）仅为0.84%。在多语言 benchmark 上，其相似度(SIM-o)和 WER 指标均超过 ElevenLabs v2和 MiniMax 等知名模型，展现出卓越的语音自然度和清晰度。
极速推理:RTF 低至0.025，合成速度比实时快40倍
OmniVoice 的实时因子（RTF）低至0.025，意味着合成速度远超实时需求，效率提升显著。这使得模型在实际应用中能够快速生成长文本语音，极大提升用户体验。
核心架构创新:扩散语言模型风格的离散非自回归设计
OmniVoice 采用扩散语言模型风格的离散非自回归架构，可直接从文本一步生成语音，跳过传统的中间语义 token 阶段。这一设计显著简化了流程，同时保证了语音质量。全码本随机掩码策略结合预训练 LLM 初始化，进一步提升了训练效率和最终输出的清晰度与可懂度。
灵活语音克隆与定制:3-10秒参考音频即可实现
模型支持使用3-10秒的短参考音频进行高品质零样本语音克隆。此外，用户还可以通过自然语言描述自定义声音属性，包括性别、年龄、音调、口音、方言等，甚至可以生成耳语风格等特殊效果。
支持非语言符号与精细发音控制
OmniVoice 能够处理非语言符号，例如[laughter]表示笑声，还支持通过拼音或音标进行发音纠正，特别适合中文及方言的精准合成。
600+ 语种覆盖:助力小语种与濒危语言数字化保护
OmniVoice 的最大亮点在于其广泛的语言覆盖范围，从主流语种到众多低资源语言均能高效支持。对于小语种和濒危语言而言，只需少量样本即可生成高质量语音，这对语言文化的数字化保存和保护具有重要意义。
OmniVoice 的代码和预训练模型已在 GitHub 和 Hugging Face 上开源，开发者可轻松本地部署或集成应用。小编将持续关注 OmniVoice 的社区反馈与实际使用案例，欢迎开发者分享更多体验。
项目地址：https://github.com/k2-fsa/OmniVoice

这是一篇关于小米重磅开源！OmniVoice 覆盖 600+ 语种零样本语音克隆 TTS：WER 仅 0.84%、速度快 40 倍，小语种也能轻松复活的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：研究揭示聊天机器人引言25%源自新闻报道：是谁在滋养AI？

下一篇：避免成为AI数据池：Google推进Gmail与Gemini整合，确保用户隐私安全

小米重磅发布开放源码！OmniVoice 支持超过 600 种语言的无样本语音克隆 TTS：WER 低至 0.84%、速度提升达 40 倍，罕见语言同样轻易复现

最新Ai信息

最新Ai工具

热门AI推荐