开源发布MiniCPM-V4.0,被誉为“手机版GPT-4V”
发布时间:2025-08-07 10:20:43 | 责任编辑:张毅 | 浏览量:10 次
OpenBMB 团队近日宣布,新一代多模态大模型 MiniCPM-V4.0 正式开源发布。该模型凭借其轻量级架构和卓越性能,被誉为“手机上的 GPT-4V”,有望为移动设备上的 AI 应用带来革命性的突破。
MiniCPM-V4.0的核心在于其精巧的设计。它基于 SigLIP2-400M 和 MiniCPM4-3B 构建,参数量仅为 4.1B,却在图像、多图像和视频理解方面展现出强大的能力。这使得它不仅能轻松处理单张图片,还能理解复杂的多图关联内容和视频片段,为用户带来更智能的交互体验。
尽管参数量小,MiniCPM-V4.0的性能表现却令人惊叹。在权威的 OpenCompass 八大主流评测基准上,该模型平均得分高达 69.0,超越了 GPT-4.1-mini 和 Qwen2.5-VL-3B 等一众竞争对手。这一成绩证明了其在视觉理解方面的强大实力,尤其是在处理复杂场景时,其准确性和深度分析能力令人印象深刻。
MiniCPM-V4.0的另一大亮点是其专为移动设备进行的高度优化。在最新的 iPhone16Pro Max 上的实测显示,该模型首次响应延迟不到 2秒,解码速度超过 17token/秒,并且在运行时能有效控制设备发热,确保了流畅稳定的用户体验。此外,它还能处理高并发请求,非常适合在手机、平板电脑等边缘设备上的实际应用。
为了降低开发者的使用门槛,OpenBMB 团队提供了丰富的生态支持。MiniCPM-V4.0兼容 llama.cpp、Ollama 和 vllm_project 等主流框架,为开发者提供了灵活多样的部署选择。团队还专门开发了 iOS 应用,支持在 iPhone 和 iPad 上直接运行,并发布了详细的 Cookbook,提供完整的教程和代码示例。
MiniCPM-V4.0的发布,为多模态技术的应用开辟了新天地。其主要应用场景广泛,包括:
图像分析与多轮对话: 用户可以上传图片,让模型进行内容分析,并在此基础上进行连续对话。
视频理解: 能够分析视频内容,为需要处理视频信息的场景提供解决方案。
OCR 与数学推理: 模型具备识别图片中文字和解决数学问题的能力,大大提升了其在实际工作和学习中的实用性。
MiniCPM-V4.0的开源,不仅展示了国内 AI 团队在轻量级模型研发上的卓越实力,也为全球开发者提供了探索移动端多模态技术的强大工具,为 AI 普惠化迈出了坚实的一步。
Github:https://github.com/OpenBMB/MiniCPM-o
Hugging Face:https://huggingface.co/openbmb/MiniCPM-V-4
ModelScope:https://modelscope.cn/models/OpenBMB/MiniCPM-V-4
CookBook:https://github.com/OpenSQZ/MiniCPM-V-CookBook
是的,面壁智能(OpenBMB)于 2025 年 8 月 5 日正式开源发布了 MiniCPM-V 4.0,这款模型被称为 “手机上的 GPT-4V”。
以下是它被称为“手机上的 GPT-4V”的几个关键原因:
✅ 1. 超强视觉理解能力,超越 GPT-4V
-
仅 4.1B 参数 的 MiniCPM-V 4.0,在 OpenCompass(8大主流视觉基准) 中取得 69.0 分,超越了:
-
GPT-4.1-mini-20250414
-
MiniCPM-V 2.6(8.1B 参数)
-
Qwen2.5-VL-3B-Instruct(3.8B 参数)
-
-
支持 单图、多图、视频理解,具备 领先的 OCR、表格识别、多轮对话能力。
✅ 2. 极致端侧部署效率
-
iPhone 16 Pro Max 实测:
-
首 token 延迟 < 2 秒
-
解码速度 > 17 token/s
-
无明显发热
-
-
支持 llama.cpp、Ollama、vLLM、SGLang、LLaMA-Factory 等部署方式,并开源了 iOS 原生 App。
✅ 3. 开源 + 易用
-
模型已开源,地址:
-
提供 本地 Web Demo 和 iOS App,开发者可快速上手。
✅ 4. 小参数,大能量
-
相比传统多模态大模型动辄百B参数,MiniCPM-V 4.0 以 4.1B 参数 实现了 GPT-4V 级别的性能,真正做到了 “小而强”,适合 手机、平板、PC 等端侧部署。
📌 小结一句话:
MiniCPM-V 4.0 是目前唯一能在手机上流畅运行的 GPT-4V 级多模态模型,开源、高效、易用,标志着端侧 AI 进入“多模态 GPT-4V 时代”。
如需体验或部署,可直接访问其 GitHub 仓库 或 HuggingFace 页面。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。