首页 > 快讯 > 小米重磅发布开放源码!OmniVoice 支持超过 600 种语言的无样本语音克隆 TTS:WER 低至 0.84%、速度提升达 40 倍,罕见语言同样轻易复现

小米重磅发布开放源码!OmniVoice 支持超过 600 种语言的无样本语音克隆 TTS:WER 低至 0.84%、速度提升达 40 倍,罕见语言同样轻易复现

发布时间:2026-04-09 10:10:30 | 责任编辑:张毅 | 浏览量:1 次

近日,小米下一代 Kaldi 团队(k2-fsa)正式开源 OmniVoice,这是一款支持超过600种语言的超大规模多语言零样本文本转语音(TTS)模型,在中英文及多语言基准测试中多项关键指标达到 SOTA(State-of-the-Art),为语音合成领域带来全新突破。
性能指标领先:中文 WER 低至0.84%,多语言超越主流商用模型
在 Seed-TTS 中文测试集上,OmniVoice 的词错误率(WER)仅为0.84%。在多语言 benchmark 上,其相似度(SIM-o)和 WER 指标均超过 ElevenLabs v2和 MiniMax 等知名模型,展现出卓越的语音自然度和清晰度。
极速推理:RTF 低至0.025,合成速度比实时快40倍
OmniVoice 的实时因子(RTF)低至0.025,意味着合成速度远超实时需求,效率提升显著。这使得模型在实际应用中能够快速生成长文本语音,极大提升用户体验。
核心架构创新:扩散语言模型风格的离散非自回归设计
OmniVoice 采用扩散语言模型风格的离散非自回归架构,可直接从文本一步生成语音,跳过传统的中间语义 token 阶段。这一设计显著简化了流程,同时保证了语音质量。全码本随机掩码策略结合预训练 LLM 初始化,进一步提升了训练效率和最终输出的清晰度与可懂度。
灵活语音克隆与定制:3-10秒参考音频即可实现
模型支持使用3-10秒的短参考音频进行高品质零样本语音克隆。此外,用户还可以通过自然语言描述自定义声音属性,包括性别、年龄、音调、口音、方言等,甚至可以生成耳语风格等特殊效果。
支持非语言符号与精细发音控制
OmniVoice 能够处理非语言符号,例如[laughter]表示笑声,还支持通过拼音或音标进行发音纠正,特别适合中文及方言的精准合成。
600+ 语种覆盖:助力小语种与濒危语言数字化保护
OmniVoice 的最大亮点在于其广泛的语言覆盖范围,从主流语种到众多低资源语言均能高效支持。对于小语种和濒危语言而言,只需少量样本即可生成高质量语音,这对语言文化的数字化保存和保护具有重要意义。
OmniVoice 的代码和预训练模型已在 GitHub 和 Hugging Face 上开源,开发者可轻松本地部署或集成应用。小编 将持续关注 OmniVoice 的社区反馈与实际使用案例,欢迎开发者分享更多体验。
项目地址:https://github.com/k2-fsa/OmniVoice

小米重磅发布开放源码!OmniVoice 支持超过 600 种语言的无样本语音克隆 TTS:WER 低至 0.84%、速度提升达 40 倍,罕见语言同样轻易复现

这是一篇关于小米重磅开源!OmniVoice 覆盖 600+ 语种零样本语音克隆 TTS:WER 仅 0.84%、速度快 40 倍,小语种也能轻松复活的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐