首页 > 快讯 > 阿里巴巴发布全新“百聆”语音技术：短短三秒录音即可实现多语言及情感转变

阿里巴巴发布全新“百聆”语音技术：短短三秒录音即可实现多语言及情感转变

发布时间：2025-12-15 17:54:15 | 责任编辑：张毅 | 浏览量：213 次

阿里巴巴通义大模型宣布，其 “百聆” 系列语音模型迎来了重大升级，并正式开源。此次更新的两款语音模型，能够在仅需三秒的录音后，实现无缝切换至多达九种语言和十八种方言，包括普通话、粤语、日语、英语等，同时还可以模拟多种情感如开心和愤怒。
在这次升级中，Fun-CosyVoice3模型得到了显著改善。模型的首包延迟降低了50%，大幅提升了中英混说的准确率。此外，模型的音色克隆能力得到了增强，用户只需提供一段三秒以上的录音，便能复刻出相应的音色并合成新语音。此功能的开发使得实时语音助手、直播配音和无障碍阅读等场景变得更加高效和便捷。
Fun-ASR 模型的能力同样得到了提升，噪声环境下的准确率达到了93%。这一模型不仅支持歌词和说唱的识别，还可以进行多语言自由混说，覆盖多种中文方言与口音。为了提升用户体验，流式识别的首字延迟已降低至160毫秒，大幅提升了语音交互的流畅性。
此外，这两款模型均支持本地部署与二次开发，开发者可以根据自己的需求进行定制化调整。开源地址也已公布，用户可以前往相关平台体验和使用这两款语音模型，进一步推动语音技术在各个领域的应用。
GitHub:https://github.com/FunAudioLLM/CosyVoice
划重点:
🌐 ** 多语言支持 **:三秒录音即可实现9种语言和18种方言的切换。
⚙️ ** 技术升级 **:延迟降低50%，准确率提升，使语音交互更加流畅。
📦 ** 开源开放 **:模型支持本地部署和二次开发，便于个性化应用。

这是一篇关于阿里推出新语音模型“百聆”：三秒录音实现多语言与情感切换的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：世界人工智能实力榜单发布：美国居首，中国位列其次！

下一篇：首次打通多模态AIGC全链路，商汤推出首个行业“多剧集生成智能体”Seko2.0，并实现国产AI芯片的创新应用

阿里巴巴发布全新“百聆”语音技术：短短三秒录音即可实现多语言及情感转变

最新Ai信息

最新Ai工具

热门AI推荐