首页 > 快讯 > 阿里最新开源Qwen2.5-Omni多模式模型：显存需求减半，效率显著提升

阿里最新开源Qwen2.5-Omni多模式模型：显存需求减半，效率显著提升

发布时间：2025-05-01 10:15:20 | 责任编辑：张毅 | 浏览量：109 次

在开源大模型的竞争中，阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%，在同等处理能力下，更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。
Qwen2.5-Omni 是一款端到端的多模态模型，能够同时处理文本、图像、音频和视频等多种信息类型。得益于其独特的 “Thinker-Talker” 架构，模型能够在实时互动中灵活运用多种输入，生成相应的文本和自然语音回应。这种设计使得用户在与系统的互动中，能够获得更流畅、更自然的体验。
显存优化，兼容性增强
与 Qwen2.5-Omni-7B 模型相比，3B 版本在处理长上下文序列时，显存显著降低，使得其在24GB 的消费级 GPU 上仍能支持长达30秒的音视频交互。这一优化不仅提升了模型的适用性，也让更多用户能够在个人计算机上实现高效的多模态处理，解决了以往因显存不足导致的使用障碍。
实时语音与视频聊天功能
Qwen2.5-Omni 的核心优势之一是其支持完全实时的语音和视频聊天功能。该模型能够处理分块输入并即时输出响应，展现出卓越的鲁棒性和自然度。这种技术使得在语音生成方面，Qwen2.5-Omni 的表现超越了许多现有的流式和非流式模型，为用户提供了更加人性化的互动体验。
在多模态任务中，Qwen2.5-Omni 展现出令人瞩目的性能，无论是在单一模态任务，如语音识别、翻译、音频理解、图像推理，还是在需要多模态融合的复杂任务中，该模型都能表现出色。在与同规模的单模态模型对比中，Qwen2.5-Omni 不仅在音频能力上超越了 Qwen2-Audio，还在图像和视频任务中达到了与 Qwen2.5-VL-7B 相当的水平，证明了其多模态处理的强大能力。
github地址:https://github.com/QwenLM/Qwen2.5-Omni
在线体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

阿里巴巴开源的多模态模型Qwen2.5-Omni在显存优化方面取得了显著进展。以下是关于其显存优化的具体信息：

显存优化成果

显存使用大幅降低：Qwen2.5-Omni-3B版本的显存使用相比前代大幅减少。在处理长上下文输入（25,000个标记）时，显存占用减少了超过50%，从7B模型的60.2GB降至28.2GB。这一优化使其能够在消费级硬件上运行，例如常见的24GB GPU，而无需依赖企业级的专用GPU集群。
支持更长时间的音视频交互：在24GB的消费级GPU上，Qwen2.5-Omni-3B能够支持长达30秒的音视频交互。

显存优化的关键技术

混合专家（MoE）架构：Qwen2.5-Omni采用了混合专家架构，激活参数仅占全模型的1/8，从而显著降低了推理成本。
int4量化支持：该模型支持int4量化，在几乎不损失精度的情况下，显存需求进一步降低60%。
滑动窗口注意力（SWA）+记忆检索机制：通过这种机制，Qwen2.5-Omni能够在保持低显存占用的同时支持超长文本和多轮对话。
Thinker-Talker架构和TMRoPE方法：这些架构特性使模型能够更高效地处理多模态输入，进一步优化了显存使用。

显存优化的意义

降低部署成本：显存优化使得Qwen2.5-Omni能够在消费级硬件上高效运行，降低了部署成本，使更多个人开发者和中小企业能够使用该模型。
提升适用性：优化后的模型更适合在资源受限的环境中使用，例如个人计算机和笔记本电脑，解决了以往因显存不足导致的使用障碍。

Qwen2.5-Omni的显存优化不仅提升了模型的性能和适用性，还为多模态人工智能的普及和应用提供了有力支持。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。