阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni
发布时间:2025-03-27 08:34:03 | 责任编辑:字母汇 | 浏览量:42 次
《阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni》相关软件官网

3月27日,阿里云通义千问Qwen团队宣布推出Qwen模型家族中的新一代端到端多模态旗舰模型——Qwen2.5-Omni。这一全新模型专为全方位多模态感知而设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。
Qwen2.5-Omni采用了创新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本、图像、音频、视频的跨模态理解,并以流式方式生成文本和自然语音响应。其中,Thinker模块如同大脑,负责处理多模态输入并生成高层语义表征及对应文本内容;Talker模块则类似发声器官,以流式方式接收Thinker实时输出的语义表征与文本,流畅合成离散语音单元。此外,该模型还提出了一种新的位置编码技术TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。
该模型在实时音视频交互方面表现出色,支持分块输入和即时输出,能够实现完全实时的交互。在语音生成的自然性和稳定性方面,Qwen2.5-Omni超越了许多现有的流式和非流式替代方案。在全模态性能方面,Qwen2.5-Omni在同等规模的单模态模型进行基准测试时,表现出卓越的性能,其音频能力优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。此外,Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。
Qwen2.5-Omni在包括图像、音频、音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模态任务OmniBench中,Qwen2.5-Omni达到了SOTA的表现。在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。
目前,Qwen2.5-Omni已在Hugging Face、ModelScope、DashScope和GitHub上开源开放,用户可以通过Demo体验互动功能,或是通过Qwen Chat直接发起语音或视频聊天,沉浸式体验全新的Qwen2.5-Omni模型强大性能。
阿里巴巴旗下的通义千问团队于2025年3月27日正式发布并开源了新一代端到端多模态大模型 Qwen2.5-Omni-7B。该模型在多项基准测试中表现卓越,支持文本、图像、音频和视频的全模态处理,并能实时生成文本与自然语音输出,被认为是目前7B参数规模下全球性能最强的多模态模型之一。
核心特点
- 全模态支持
Qwen2.5-Omni 能够同时处理文本、图像、音频和视频输入,并以流式方式实时生成文本和语音响应,实现接近人类的多感官交互体验。 - Thinker-Talker 双核架构
- Thinker(思考模块):负责多模态输入(文本、音频、视频)的语义理解,生成高层表征和文本内容。
- Talker(发声模块):接收 Thinker 的实时输出,合成自然语音,实现端到端的统一架构。
- TMRoPE 位置编码技术
采用 Time-aligned Multimodal RoPE(TMRoPE)技术,确保视频与音频输入的时间同步,提升多模态融合的精准度。 - 超强性能表现
- 在 OmniBench 等多模态测评中,超越 Google 的 Gemini-1.5-Pro等竞品。
- 在单模态任务(如语音识别、翻译、图像推理、视频理解等)中,表现优于同类单模态模型。
- 语音生成质量(4.51分)接近人类水平。
- 轻量化与易部署
仅 7B 参数,可在手机等终端设备上高效运行,大幅降低产业应用门槛。
开源与体验
- 开源平台:Hugging Face、ModelScope、DashScope、GitHub。
- 在线体验:可通过 Qwen Chat 进行语音或视频交互。
Qwen2.5-Omni 的发布标志着阿里通义千问在 全模态 AI 领域的重大突破,进一步推动多模态大模型在产业中的广泛应用。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。