首页 > 快讯 > 阿里MNN重磅升级!最新移动端开源项目为Qwen-2.5提供多模态AI支持,涵盖文本、图像及语音处理!

阿里MNN重磅升级!最新移动端开源项目为Qwen-2.5提供多模态AI支持,涵盖文本、图像及语音处理!

发布时间:2025-05-13 10:15:20 | 责任编辑:张毅 | 浏览量:3 次

阿里巴巴开源项目MNN(Mobile Neural Network)发布了其移动端多模态大模型应用MnnLlmApp的最新版本,新增对Qwen-2.5-Omni-3B和7B模型的支持。这款完全开源、运行于移动端本地的大模型应用,支持文本到文本、图像到文本、音频到文本和文本到图像生成等多种模态任务,以其高效性能和低资源占用引发开发者广泛关注。小编观察到,MNN的此次更新进一步推动了多模态AI在移动端的普及。
项目地址:
https://github.com/alibaba/MNN/blob/master/apps/Android/MnnLlmChat/README.md
核心亮点:多模态能力全面增强
新版MnnLlmApp集成了Qwen-2.5-Omni-3B和7B模型,依托阿里云Qwen团队的Thinker-Talker架构,实现对文本、图像、音频和视频的综合处理能力。小编了解到,应用支持以下功能:
文本到文本:生成高质量对话、报告或代码,媲美云端模型。
图像到文本:识别图像中的文字或描述场景内容,适用于文档扫描和视觉问答。
音频到文本:高效转录语音,支持多语言语音识别。
文本到图像:通过扩散模型生成高质量图像,满足创意设计需求。
社交媒体反馈显示,开发者对Qwen-2.5-Omni-3B在24GB GPU上的运行表现尤为满意,其在OmniBench基准测试中保留了7B模型90%以上的多模态性能,同时内存占用降低超50%(从60.2GB降至28.2GB)。
技术优势:本地推理与极致优化
MNN框架以其轻量化和高性能著称,专为移动端和边缘设备优化。小编编辑团队注意到,新版MnnLlmApp在CPU推理上表现卓越,预填充速度比llama.cpp快8.6倍,解码速度快2.3倍。 应用完全本地运行,无需联网即可处理多模态任务,确保数据隐私不被上传至外部服务器。支持的模型范围广泛,涵盖Qwen、Gemma、Llama、Baichuan等主流开源模型,开发者可通过GitHub直接下载并构建应用。此外,MNN提供FlashAttention-2支持,进一步提升长上下文处理的效率。
应用场景:从开发到生产
MnnLlmApp的多模态能力使其在多种场景中展现潜力:
教育与办公:通过图像到文本功能扫描文档,或用音频到文本转录会议记录。
创意设计:利用文本到图像生成宣传素材或艺术作品。
智能助手:构建本地化语音交互应用,如离线导航或客服助手。
开发者学习:开源代码和详细文档为移动端大模型开发提供了参考范例。
小编分析认为,MNN的开源属性和对Qwen-2.5-Omni的支持,使其成为开发者探索移动端多模态AI的理想平台。社交媒体上,开发者表示,MnnLlmApp的推理速度(Llama3.18B预填充28tokens/s)虽未达到顶尖水平,但其多模态集成和易用性足以满足原型开发需求。
行业背景:移动端AI的开源热潮
MNN的更新正值移动端AI竞争升温。DeepSeek的R1模型和Baichuan-Omni近期也推出了开源多模态解决方案,强调本地化部署和低成本。 然而,MNN凭借阿里生态支持和硬件优化(如对Android设备的深度适配)在性能与兼容性上占据优势。小编注意到,阿里云已开源超200个生成式AI模型,Qwen系列在Hugging Face的下载量突破8000万,显示出其全球影响力。 MnnLlmApp的iOS版本也已发布,进一步扩大了其跨平台覆盖。
移动端多模态的未来
MnnLlmApp的此次更新标志着多模态AI从云端向边缘设备的加速迁移。小编编辑团队预计,随着Qwen-2.5-Omni模型的持续优化(如支持更长视频或更低延迟语音生成),MNN将在智能家居、车载系统和离线助手领域发挥更大作用。然而,社交媒体也指出,应用的模型加载流程(需从源码构建外部模型)仍需简化,以提升用户友好性。

阿里MNN重磅升级!最新移动端开源项目为Qwen-2.5提供多模态AI支持,涵盖文本、图像及语音处理!

阿里巴巴的MNN项目确实有了重大更新,其在移动端开源的多模态AI支持Qwen-2.5,实现了文本、图像、语音等多种模态的处理。以下是具体介绍:

技术优化

  • 推理速度优化:MNN针对移动端设备进行了深度优化,通过模型量化、混合存储和硬件特定优化等措施,解决了高内存消耗和计算成本等挑战。在CPU推理方面,MNN-LLM在安卓平台上展现出卓越性能,预填充速度相较于llama.cpp提高了8.6倍,相较于fastllm提升了20.5倍,解码速度分别快了2.3倍和8.9倍。

  • 多模态支持优化:MNN不仅支持文本生成文本,还能实现图像生成文本、音频转文本以及文本生成图像(基于扩散模型)等多种多模态任务。此外,MNN在端上生成的速度更快、更省内存,比OnnxRuntime方案速度快三倍。

功能拓展

  • 模型兼容性增强:MNN支持多种领先的模型提供商,包括Qwen、Gemma、Llama(涵盖TinyLlama与MobileLLM)、Baichuan、Yi、DeepSeek、InternLM、Phi、ReaderLM和Smolm等。

  • 本地运行与隐私保护:所有功能完全在设备本地运行,无需联网,确保了数据隐私和安全性。

应用更新

  • Android应用更新:2025年4月30日,MNN的Android应用支持了Qwen-3和暗黑模式。此前,该应用已支持DeepSeek R1 1.5B。

  • iOS应用发布:2025年2月18日,MNN的iOS多模态LLM应用也已发布。

模型支持

  • Qwen-2.5系列模型:Qwen-2.5系列模型本身也不断更新,如2025年3月27日发布的Qwen2.5-Omni-7B,具备实时处理文本、图像、音频和视频等多种输入形式的能力。2025年4月30日又推出了Qwen2.5-Omni-3B版本,参数规模虽小,但在多模态性能上表现出色,尤其在实时文本生成和自然语音输出方面,达到了7B模型的90%以上理解能力。

下载与使用

  • Android APK下载:可通过MNN项目的GitHub页面找到相关下载链接。

  • iOS需源码编译:iOS用户需要通过源码编译来使用。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复