首页 > 快讯 > “语音即角色”——阿里Qwen3-TTS登场，提供49种音色与10种语言9种方言，WER表现超越主流商用模型

“语音即角色”——阿里Qwen3-TTS登场，提供49种音色与10种语言9种方言，WER表现超越主流商用模型

发布时间：2025-12-08 23:02:36 | 责任编辑：吴昊 | 浏览量：204 次

阿里巴巴正式推出 Qwen3家族最新成员 Qwen3-TTS，主打“零样本、多角色、跨语言”语音合成。新模型在词错误率（WER）国际基准上显著优于主流商用引擎，同步上线阿里云控制台，开发者可0元调用100万字符额度。
49种高品质音色，一键切换角色
从温柔少女到方言大叔，Qwen3-TTS 内置49种官方音色，覆盖旁白、客服、直播、教育等场景;支持10种语言 +9种中国方言（粤语、四川话、东北话等），同一文本可秒级切换音色，无需重新训练。
文本→语气→节奏，全自动“拟人化”
模型采用自回归声学模型 + 韵律预测模块，可根据标点、情感标签自动升降调、插入停顿;在48kHz 采样率下，MOS 得分达4.53，显著高于行业平均4.1。
WER 显著优于商用模型
在多语言语音合成公开测试集（MLS + Common Voice）上，Qwen3-TTS 英文 WER 降至2.8%，中文1.9%，较 Azure TTS 再降18% 与24%，刷新开源 SOTA。
教育场景“零样本”落地
阿里云同步发布“一键朗读”插件，教师上传 PPT 即可自动生成带方言的讲解音频，目前已在上海120所中小学试点，帮助学生用“家乡话”听写单词。
定价与入口
- 免费层:100万字符/月，49种音色不限调用
- 付费层:0.8元/万字符，支持 SSML 与实时流式合成
- 控制台:console.aliyun.com → 人工智能 → 语音合成 → Qwen3-TTS（已全量）
下一步计划
阿里透露，2025Q1将开放“10秒音色克隆”接口，用户上传短音频即可生成私有说话人，并推出80kHz 超采样版本，瞄准播客、有声书与虚拟偶像市场。
行业观察
TTS 赛道正从“可听懂”走向“可角色化”。Qwen3-TTS 用开源+低价组合冲击 Azure、AWS 商用池，同时给直播、客服、教育三大场景提供“零样本”落地路径。伴随克隆音色与超采样版本发布，语音生成或将进入“人人都能配旁白”的新阶段。小编将持续跟踪其克隆接口开放进度与商用案例。
项目地址：https://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo

这是一篇关于“开口即角色”！阿里 Qwen3-TTS 登场：49 种音色 + 10 语言 9 方言，WER 碾压主流商用模型的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： GR00T N1.5千卡训练获京东云JoyBuilder支持，推动具身智能规模化应用

下一篇：全球8大媒体与Meta AI合作：实时新闻瞬间响应与外部流量引导

“语音即角色”——阿里Qwen3-TTS登场，提供49种音色与10种语言9种方言，WER表现超越主流商用模型

最新Ai信息

最新Ai工具

热门AI推荐