首页 > 快讯 > 瞬间“改造”嗓音！阿里通义推出语音双模型：兼容 FreeStyle 自然对话调控

瞬间“改造”嗓音！阿里通义推出语音双模型：兼容 FreeStyle 自然对话调控

发布时间：2026-03-02 14:41:16 | 责任编辑：张毅 | 浏览量：79 次

阿里通义实验室语音团队今日宣布推出两款革命性的语音生成模型:Fun-CosyVoice3.5 与 Fun-AudioGen-VD。这两款模型最大的亮点在于支持“FreeStyle”指令，用户无需复杂的参数调节，仅需通过一句自然语言描述，即可精准控制声音的表达风格或从零构建复杂的音频场景。
两款模型的功能侧重各有不同:
该模型是此前 CosyVoice 的升级版，核心突破在于对语音表达的“理解力”。
指令式生成:用户可以输入“语气坚定点”、“语速放慢并带点情绪起伏”等指令，模型会实时调整输出效果。
语种扩容:新增支持泰语、印尼语、葡萄牙语及越南语，在13种语言的转写准确率（WER）和音色相似度上保持业内领先。
生僻字优化:通过专项调优，生僻字读错率从15.2% 大幅降至 5.3%。
性能提升:首包延迟降低 35%，极大提升了实时交互场景下的流畅度。
该模型更像是一个“声音导演”，能够根据描述生成“人物 + 场景”的一体化音频。
音色定制:支持指定性别、年龄、口音，甚至细化到“沙哑、磁性、低沉”等特质。
情绪与角色:能够模拟客服、播音员、孩童等角色，甚至能表现出“表面镇定但内心颤抖”等复杂心理状态。
环境沉浸感:支持叠加背景音（如战场轰鸣、咖啡馆喧嚣）和空间特效(如大教堂回声、水下听感)，实现全方位的空间模拟。
通义实验室表示，这两款模型的发布将进一步降低高品质语音创作的门槛，为播客、游戏开发、影视后期等领域提供强大的 AI 助力。

这是一篇关于一句话即刻“调教”音色！阿里通义发布语音双模型：支持 FreeStyle 自然语言控制的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：只需一句话立刻“塑造”音色！阿里通义推出语音双模型：实现自由流畅的语言操控

下一篇：告别“假智慧”！荣耀郭锐深度解析 Magic8 实物“AI 按钮”：将顶级入口带回指尖，单按键实现全方位 AI 体验

瞬间“改造”嗓音！阿里通义推出语音双模型：兼容 FreeStyle 自然对话调控

最新Ai信息

最新Ai工具

热门AI推荐