首页 > 快讯 > 音讯双模创新发布, 通义实验室推出Fun-CosyVoice3.5与Fun-AudioGen-VD产品

音讯双模创新发布, 通义实验室推出Fun-CosyVoice3.5与Fun-AudioGen-VD产品

发布时间:2026-03-02 12:48:35 | 责任编辑:张毅 | 浏览量:2 次

今日,通义实验室宣布正式发布两款支持“FreeStyle”指令生成的语音大模型:Fun-CosyVoice3.5与Fun-AudioGen-VD。此次发布标志着语音生成技术从依赖预设标签的传统范式,向基于自然语言指令自由控制的新范式跨越,实现了“一句话自由生成语音”的深度交互体验。
在技术架构与功能升级方面,Fun-CosyVoice3.5侧重于多语种复刻与精细化表达,新增泰语、印尼语等4个语种支持。通过引入DiffRO与GRPO强化学习技术,该模型显著提升了语音的韵律表现与音质相似度,其生僻字读错率从15.2%大幅降至5.3%,首包延迟亦降低了35%。与之互补的Fun-AudioGen-VD则专注于声音设计与场景化建模,支持通过指令精确控制性别、情绪及空间声学效果,能够模拟从“疯狂反派”到“热闹咖啡馆”等复杂的角色与背景音一体化场景。
从行业趋势来看,通义实验室这一动作将语音生成从单纯的转换工具升级为创作工具。这种可描述、可编排的数字表达能力,将直接赋能影视、游戏及AI智能体等领域,在降低内容创作成本的同时,极大拓展了人机交互的语义丰富度。
API调用:https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP
文档:https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api?spm=a2c4g.11186623.help-menu-search-2400256.d_2

音讯双模创新发布, 通义实验室推出Fun-CosyVoice3.5与Fun-AudioGen-VD产品

这是一篇关于通义实验室发布语音双模型:Fun-CosyVoice3.5与Fun-AudioGen-VD上线的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐