首页 > 快讯 > 阿里MNN重磅升级！最新移动端开源项目为Qwen-2.5提供多模态AI支持，涵盖文本、图像及语音处理！

阿里MNN重磅升级！最新移动端开源项目为Qwen-2.5提供多模态AI支持，涵盖文本、图像及语音处理！

发布时间：2025-05-13 10:15:20 | 责任编辑：张毅 | 浏览量：130 次

阿里巴巴开源项目MNN（Mobile Neural Network）发布了其移动端多模态大模型应用MnnLlmApp的最新版本，新增对Qwen-2.5-Omni-3B和7B模型的支持。这款完全开源、运行于移动端本地的大模型应用，支持文本到文本、图像到文本、音频到文本和文本到图像生成等多种模态任务，以其高效性能和低资源占用引发开发者广泛关注。小编观察到，MNN的此次更新进一步推动了多模态AI在移动端的普及。
项目地址：
https://github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md
核心亮点:多模态能力全面增强
新版MnnLlmApp集成了Qwen-2.5-Omni-3B和7B模型，依托阿里云Qwen团队的Thinker-Talker架构，实现对文本、图像、音频和视频的综合处理能力。小编了解到，应用支持以下功能:
文本到文本:生成高质量对话、报告或代码，媲美云端模型。
图像到文本:识别图像中的文字或描述场景内容，适用于文档扫描和视觉问答。
音频到文本:高效转录语音，支持多语言语音识别。
文本到图像:通过扩散模型生成高质量图像，满足创意设计需求。
社交媒体反馈显示，开发者对Qwen-2.5-Omni-3B在24GB GPU上的运行表现尤为满意，其在OmniBench基准测试中保留了7B模型90%以上的多模态性能，同时内存占用降低超50%（从60.2GB降至28.2GB）。
技术优势:本地推理与极致优化
MNN框架以其轻量化和高性能著称，专为移动端和边缘设备优化。小编编辑团队注意到，新版MnnLlmApp在CPU推理上表现卓越，预填充速度比llama.cpp快8.6倍，解码速度快2.3倍。应用完全本地运行，无需联网即可处理多模态任务，确保数据隐私不被上传至外部服务器。支持的模型范围广泛，涵盖Qwen、Gemma、Llama、Baichuan等主流开源模型，开发者可通过GitHub直接下载并构建应用。此外，MNN提供FlashAttention-2支持，进一步提升长上下文处理的效率。
应用场景:从开发到生产
MnnLlmApp的多模态能力使其在多种场景中展现潜力:
教育与办公:通过图像到文本功能扫描文档，或用音频到文本转录会议记录。
创意设计:利用文本到图像生成宣传素材或艺术作品。
智能助手:构建本地化语音交互应用，如离线导航或客服助手。
开发者学习:开源代码和详细文档为移动端大模型开发提供了参考范例。
小编分析认为，MNN的开源属性和对Qwen-2.5-Omni的支持，使其成为开发者探索移动端多模态AI的理想平台。社交媒体上，开发者表示，MnnLlmApp的推理速度（Llama3.18B预填充28tokens/s）虽未达到顶尖水平，但其多模态集成和易用性足以满足原型开发需求。
行业背景:移动端AI的开源热潮
MNN的更新正值移动端AI竞争升温。DeepSeek的R1模型和Baichuan-Omni近期也推出了开源多模态解决方案，强调本地化部署和低成本。然而，MNN凭借阿里生态支持和硬件优化（如对Android设备的深度适配）在性能与兼容性上占据优势。小编注意到，阿里云已开源超200个生成式AI模型，Qwen系列在Hugging Face的下载量突破8000万，显示出其全球影响力。 MnnLlmApp的iOS版本也已发布，进一步扩大了其跨平台覆盖。
移动端多模态的未来
MnnLlmApp的此次更新标志着多模态AI从云端向边缘设备的加速迁移。小编编辑团队预计，随着Qwen-2.5-Omni模型的持续优化（如支持更长视频或更低延迟语音生成），MNN将在智能家居、车载系统和离线助手领域发挥更大作用。然而，社交媒体也指出，应用的模型加载流程(需从源码构建外部模型)仍需简化，以提升用户友好性。

阿里巴巴的MNN项目确实有了重大更新，其在移动端开源的多模态AI支持Qwen-2.5，实现了文本、图像、语音等多种模态的处理。以下是具体介绍：

技术优化

推理速度优化：MNN针对移动端设备进行了深度优化，通过模型量化、混合存储和硬件特定优化等措施，解决了高内存消耗和计算成本等挑战。在CPU推理方面，MNN-LLM在安卓平台上展现出卓越性能，预填充速度相较于llama.cpp提高了8.6倍，相较于fastllm提升了20.5倍，解码速度分别快了2.3倍和8.9倍。
多模态支持优化：MNN不仅支持文本生成文本，还能实现图像生成文本、音频转文本以及文本生成图像（基于扩散模型）等多种多模态任务。此外，MNN在端上生成的速度更快、更省内存，比OnnxRuntime方案速度快三倍。

功能拓展

模型兼容性增强：MNN支持多种领先的模型提供商，包括Qwen、Gemma、Llama（涵盖TinyLlama与MobileLLM）、Baichuan、Yi、DeepSeek、InternLM、Phi、ReaderLM和Smolm等。
本地运行与隐私保护：所有功能完全在设备本地运行，无需联网，确保了数据隐私和安全性。

应用更新

Android应用更新：2025年4月30日，MNN的Android应用支持了Qwen-3和暗黑模式。此前，该应用已支持DeepSeek R1 1.5B。
iOS应用发布：2025年2月18日，MNN的iOS多模态LLM应用也已发布。

模型支持

Qwen-2.5系列模型：Qwen-2.5系列模型本身也不断更新，如2025年3月27日发布的Qwen2.5-Omni-7B，具备实时处理文本、图像、音频和视频等多种输入形式的能力。2025年4月30日又推出了Qwen2.5-Omni-3B版本，参数规模虽小，但在多模态性能上表现出色，尤其在实时文本生成和自然语音输出方面，达到了7B模型的90%以上理解能力。

下载与使用

Android APK下载：可通过MNN项目的GitHub页面找到相关下载链接。
iOS需源码编译：iOS用户需要通过源码编译来使用。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： Midjourney能否根据编程语言自动生成开发模板？

下一篇：震撼登场：Lovart推出全球首例设计Agent，轻松实现创意至成品一键通

最新Ai工具

新

VideoLingo 中国🇨🇳

VideoLingo 是一款专注于视频内容本地化的 AI 工具，提供多语言翻译、专业术语识别、智能字幕生成和智能配音等功能，帮助用户快速实现高质量的视频本地化。

新

Vid2txt 美国🇺🇸

Vid2txt 是一款简单易用的 AI 驱动的视频和音频转录应用，支持多种格式，提供快速、准确且离线的转录服务。

新

Vespa 挪威🇳🇴

Vespa 是一个专注于开发和运营大规模应用的AI搜索平台，结合了大数据、向量搜索、机器学习排序和实时推理。它支持原生张量操作，适用于复杂排序和决策，能够实现企业级的实时AI应用，如RAG（检索增强生成）、推荐和智能搜索。Vespa 支持查询、组织和推断向量、张量、文本和结构化数据，能够在低延迟（低于100毫秒）的情况下处理数十亿动态变化的数据项和数千次查询。它还支持混合搜索、相关性模型和多向量表示，适用于生成式AI应用、推荐和个性化系统、半结构化导航以及个人/私密搜索等多种场景。

新

Vault 美国🇺🇸

Vault 是一个基于 AI 的内容智能平台，通过预测性内容智能技术，帮助媒体公司和内容创作者提前预测内容表现，优化内容生命周期中的决策。

新

Vanna 美国🇺🇸

Vanna 是一个企业级的AI解决方案平台，专注于数据检索、分析和文本到SQL的能力。它提供多种产品，包括无需设置即可使用的Vanna Cloud、可在企业内部部署的Vanna Self-Hosted Enterprise、可通过API集成到现有应用中的Vanna Embedded，以及完全开源的Vanna OSS。Vanna 的核心优势在于其高准确性、安全性设计、自学习能力和高度可定制性，支持多种数据库和前端集成，帮助用户通过自然语言查询快速获取数据库中的洞察，减少编写SQL的时间。

新

Helicone 美国🇺🇸

Helicone 是一个为快速增长的AI公司提供的平台，帮助他们路由、调试和分析应用程序。该平台支持无需信用卡的7天免费试用，旨在帮助开发者快速构建和优化AI应用。

阿里MNN重磅升级！最新移动端开源项目为Qwen-2.5提供多模态AI支持，涵盖文本、图像及语音处理！

技术优化

功能拓展

应用更新

模型支持

下载与使用

最新Ai信息

最新Ai工具

发表回复

热门AI推荐