首页 > 快讯 > 新款 Qwen 模型由阿里巴巴发布，仅需三秒音频就能实现声音克隆

新款 Qwen 模型由阿里巴巴发布，仅需三秒音频就能实现声音克隆

发布时间：2025-12-24 11:39:28 | 责任编辑：张毅 | 浏览量：178 次

近日，阿里巴巴云计算的 Qwen 团队发布了两款全新的人工智能模型，旨在通过文本指令生成或克隆声音。其中，Qwen3-TTS-VD-Flash 模型允许用户根据详细描述生成声音，用户可以精确定义声音的特征，如情感和说话节奏。
例如，用户可以请求生成一个 “中年男性，洪亮的男中音 —— 充满活力的广告解说，快速的语速，夸张的音调变化，充满销售魅力的声音”。根据制造商的说法，该模型在性能上超过了 OpenAI 最近推出的 GPT-4o mini-tts API。
第二款模型 Qwen3-TTS-VC-Flash，则可以仅通过三秒的音频复制声音，并能在十种语言中进行复现。Qwen 声称，该模型的错误率低于竞争对手，例如 Elevenlabs 或 MiniMax。
此外，该 AI 还能够处理复杂的文本，模仿动物声音，并从录音中提取声音。两款模型均可通过阿里巴巴云的 API 访问，用户还可以在 Hugging Face 平台上尝试设计模型和克隆模型的演示。
划重点:
🌟 新款 Qwen 模型支持通过文本描述生成和克隆声音。
🎤 Qwen3-TTS-VC-Flash 可在三秒内复制声音，支持十种语言。
🚀 模型表现优于竞争对手，适用于处理复杂文本及声音模仿。

这是一篇关于阿里巴巴推出新款 Qwen 模型，三秒音频即可克隆声音的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：震撼发布MiniMax M2.1：开放式100亿参数编码模型引领SOTA，多语言编程能力超越Gemini3Pro和Claude4.5

下一篇： Lemon Slice 获得 1050 万美元投资，以推动数字化头像和 AI 视频聊天机器人的发展

新款 Qwen 模型由阿里巴巴发布，仅需三秒音频就能实现声音克隆

最新Ai信息

最新Ai工具

热门AI推荐