阿里推出Qwen3-Omni-Flash全模态大模型:即时流式响应,涵盖119种语言互动
发布时间:2025-12-11 10:05:02 | 责任编辑:张毅 | 浏览量:105 次
小编12月9日报道 阿里巴巴Qwen团队今日发布新一代全模态大模型Qwen3-Omni-Flash-2025-12-01。该模型支持文本、图像、音频和视频的无缝输入,并通过实时流式响应同步生成高质量文本与自然语音,官方称其语音表现自然度已逼近真人水平。
技术突破:实时流式全模态交互
Qwen3-Omni-Flash采用实时流式架构,可实现文本、图像、音频和视频的无缝输入与同步输出。模型支持119种文本语言交互、19种语音识别语言和10种语音合成语言,确保跨语言场景下的准确响应。
个性化体验:System Prompt开放自定义
新版本全面开放System Prompt自定义权限,用户可精细调控模型行为模式,包括设定「甜妹」「御姐」等特定人设风格,以及调整口语化表达偏好和回复长度。模型能根据文本内容自适应调节语速、停顿与韵律。
性能提升:基准测试全面跃升
官方数据显示,新模型在逻辑推理任务(ZebraLogic)上得分提升5.6,在代码生成(LiveCodeBench-v6)上提升9.3,在多学科视觉问答(MMMU)上提升4.7,展现出强大的多模态理解与分析能力。
市场部署:API已上线,定价亲民
Qwen3-Omni-Flash目前已通过API上线,输入定价为1元/百万tokens,输出为3元/百万tokens。模型已在Qwen Chat集成Demo,支持上传30秒视频并实时生成带画面口播。
行业意义:全模态进入「人格化」阶段
当多模态仍在比拼能看懂多少图,阿里直接把「实时流+人格化」做成API。对于直播、短视频、虚拟会议等重语音、重风格场景,这相当于把「配音演员+后期口播」成本打到接近零。
下一步计划:
2025年Q1将发布70B轻量版,单卡A100可跑实时流;Q2开放「语音克隆10秒」接口;Q3上线「视频驱动头像」Beta功能。小编将持续跟踪其语音克隆与视频驱动头像功能的开放进度。
这是一篇关于阿里发布全模态大模型Qwen3-Omni-Flash:实时流式输出,支持 119 种语言交互的文章,内容值得关注。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
