首页 > 快讯 > 阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni

阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni

发布时间：2025-03-27 08:34:03 | 责任编辑：字母汇 | 浏览量：130 次

《阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni》相关软件官网

3月27日，阿里云通义千问Qwen团队宣布推出Qwen模型家族中的新一代端到端多模态旗舰模型——Qwen2.5-Omni。这一全新模型专为全方位多模态感知而设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。

Qwen2.5-Omni采用了创新的Thinker-Talker架构，这是一种端到端的多模态模型，旨在支持文本、图像、音频、视频的跨模态理解，并以流式方式生成文本和自然语音响应。其中，Thinker模块如同大脑，负责处理多模态输入并生成高层语义表征及对应文本内容;Talker模块则类似发声器官，以流式方式接收Thinker实时输出的语义表征与文本，流畅合成离散语音单元。此外，该模型还提出了一种新的位置编码技术TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

微信截图_20250327082050.png

该模型在实时音视频交互方面表现出色，支持分块输入和即时输出，能够实现完全实时的交互。在语音生成的自然性和稳定性方面，Qwen2.5-Omni超越了许多现有的流式和非流式替代方案。在全模态性能方面，Qwen2.5-Omni在同等规模的单模态模型进行基准测试时，表现出卓越的性能，其音频能力优于类似大小的Qwen2-Audio，并与Qwen2.5-VL-7B保持同等水平。此外，Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

Qwen2.5-Omni在包括图像、音频、音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模态任务OmniBench中，Qwen2.5-Omni达到了SOTA的表现。在单模态任务中，Qwen2.5-Omni在多个领域中表现优异，包括语音识别（Common Voice）、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。

目前，Qwen2.5-Omni已在Hugging Face、ModelScope、DashScope和GitHub上开源开放，用户可以通过Demo体验互动功能，或是通过Qwen Chat直接发起语音或视频聊天，沉浸式体验全新的Qwen2.5-Omni模型强大性能。

阿里巴巴旗下的通义千问团队于2025年3月27日正式发布并开源了新一代端到端多模态大模型 Qwen2.5-Omni-7B。该模型在多项基准测试中表现卓越，支持文本、图像、音频和视频的全模态处理，并能实时生成文本与自然语音输出，被认为是目前7B参数规模下全球性能最强的多模态模型之一。

核心特点

全模态支持
Qwen2.5-Omni 能够同时处理文本、图像、音频和视频输入，并以流式方式实时生成文本和语音响应，实现接近人类的多感官交互体验。
Thinker-Talker 双核架构
- Thinker（思考模块）：负责多模态输入（文本、音频、视频）的语义理解，生成高层表征和文本内容。
- Talker（发声模块）：接收 Thinker 的实时输出，合成自然语音，实现端到端的统一架构。
TMRoPE 位置编码技术
采用 Time-aligned Multimodal RoPE（TMRoPE）技术，确保视频与音频输入的时间同步，提升多模态融合的精准度。
超强性能表现
- 在 OmniBench 等多模态测评中，超越 Google 的 Gemini-1.5-Pro等竞品。
- 在单模态任务（如语音识别、翻译、图像推理、视频理解等）中，表现优于同类单模态模型。
- 语音生成质量（4.51分）接近人类水平。
轻量化与易部署
仅 7B 参数，可在手机等终端设备上高效运行，大幅降低产业应用门槛。

开源与体验

开源平台：Hugging Face、ModelScope、DashScope、GitHub。
在线体验：可通过 Qwen Chat 进行语音或视频交互。

Qwen2.5-Omni 的发布标志着阿里通义千问在 全模态 AI 领域的重大突破，进一步推动多模态大模型在产业中的广泛应用。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：商汤集团 2024 年财报出炉：生成式 AI 业务收入大幅增长 103%

下一篇：合成数据立功！AccVideo实现高质量视频生成、速度飙升8. 5倍

最新Ai工具

新

VideoLingo 中国🇨🇳

VideoLingo 是一款专注于视频内容本地化的 AI 工具，提供多语言翻译、专业术语识别、智能字幕生成和智能配音等功能，帮助用户快速实现高质量的视频本地化。

新

Vid2txt 美国🇺🇸

Vid2txt 是一款简单易用的 AI 驱动的视频和音频转录应用，支持多种格式，提供快速、准确且离线的转录服务。

新

Vespa 挪威🇳🇴

Vespa 是一个专注于开发和运营大规模应用的AI搜索平台，结合了大数据、向量搜索、机器学习排序和实时推理。它支持原生张量操作，适用于复杂排序和决策，能够实现企业级的实时AI应用，如RAG（检索增强生成）、推荐和智能搜索。Vespa 支持查询、组织和推断向量、张量、文本和结构化数据，能够在低延迟（低于100毫秒）的情况下处理数十亿动态变化的数据项和数千次查询。它还支持混合搜索、相关性模型和多向量表示，适用于生成式AI应用、推荐和个性化系统、半结构化导航以及个人/私密搜索等多种场景。

新

Vault 美国🇺🇸

Vault 是一个基于 AI 的内容智能平台，通过预测性内容智能技术，帮助媒体公司和内容创作者提前预测内容表现，优化内容生命周期中的决策。

新

Vanna 美国🇺🇸

Vanna 是一个企业级的AI解决方案平台，专注于数据检索、分析和文本到SQL的能力。它提供多种产品，包括无需设置即可使用的Vanna Cloud、可在企业内部部署的Vanna Self-Hosted Enterprise、可通过API集成到现有应用中的Vanna Embedded，以及完全开源的Vanna OSS。Vanna 的核心优势在于其高准确性、安全性设计、自学习能力和高度可定制性，支持多种数据库和前端集成，帮助用户通过自然语言查询快速获取数据库中的洞察，减少编写SQL的时间。

新

Helicone 美国🇺🇸

Helicone 是一个为快速增长的AI公司提供的平台，帮助他们路由、调试和分析应用程序。该平台支持无需信用卡的7天免费试用，旨在帮助开发者快速构建和优化AI应用。

阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni

核心特点

开源与体验

最新Ai信息

最新Ai工具

热门AI推荐