首页 > 快讯 > 开源发布MiniCPM-V4.0，被誉为“手机版GPT-4V”

开源发布MiniCPM-V4.0，被誉为“手机版GPT-4V”

发布时间：2025-08-07 10:20:43 | 责任编辑：张毅 | 浏览量：291 次

OpenBMB 团队近日宣布，新一代多模态大模型 MiniCPM-V4.0 正式开源发布。该模型凭借其轻量级架构和卓越性能，被誉为“手机上的 GPT-4V”，有望为移动设备上的 AI 应用带来革命性的突破。
MiniCPM-V4.0的核心在于其精巧的设计。它基于 SigLIP2-400M 和 MiniCPM4-3B 构建，参数量仅为 4.1B，却在图像、多图像和视频理解方面展现出强大的能力。这使得它不仅能轻松处理单张图片，还能理解复杂的多图关联内容和视频片段，为用户带来更智能的交互体验。
尽管参数量小，MiniCPM-V4.0的性能表现却令人惊叹。在权威的 OpenCompass 八大主流评测基准上，该模型平均得分高达 69.0，超越了 GPT-4.1-mini 和 Qwen2.5-VL-3B 等一众竞争对手。这一成绩证明了其在视觉理解方面的强大实力，尤其是在处理复杂场景时，其准确性和深度分析能力令人印象深刻。
MiniCPM-V4.0的另一大亮点是其专为移动设备进行的高度优化。在最新的 iPhone16Pro Max 上的实测显示，该模型首次响应延迟不到 2秒，解码速度超过 17token/秒，并且在运行时能有效控制设备发热，确保了流畅稳定的用户体验。此外，它还能处理高并发请求，非常适合在手机、平板电脑等边缘设备上的实际应用。
为了降低开发者的使用门槛，OpenBMB 团队提供了丰富的生态支持。MiniCPM-V4.0兼容 llama.cpp、Ollama 和 vllm_project 等主流框架，为开发者提供了灵活多样的部署选择。团队还专门开发了 iOS 应用，支持在 iPhone 和 iPad 上直接运行，并发布了详细的 Cookbook，提供完整的教程和代码示例。
MiniCPM-V4.0的发布，为多模态技术的应用开辟了新天地。其主要应用场景广泛，包括:
图像分析与多轮对话: 用户可以上传图片，让模型进行内容分析，并在此基础上进行连续对话。
视频理解: 能够分析视频内容，为需要处理视频信息的场景提供解决方案。
OCR 与数学推理: 模型具备识别图片中文字和解决数学问题的能力，大大提升了其在实际工作和学习中的实用性。
MiniCPM-V4.0的开源，不仅展示了国内 AI 团队在轻量级模型研发上的卓越实力，也为全球开发者提供了探索移动端多模态技术的强大工具，为 AI 普惠化迈出了坚实的一步。
Github：https://github.com/OpenBMB/MiniCPM-o
Hugging Face：https://huggingface.co/openbmb/MiniCPM-V-4
ModelScope：https://modelscope.cn/models/OpenBMB/MiniCPM-V-4
CookBook：https://github.com/OpenSQZ/MiniCPM-V-CookBook

是的，面壁智能（OpenBMB）于 2025 年 8 月 5 日正式开源发布了 MiniCPM-V 4.0，这款模型被称为 “手机上的 GPT-4V”。

以下是它被称为“手机上的 GPT-4V”的几个关键原因：

✅ 1. 超强视觉理解能力，超越 GPT-4V

仅 4.1B 参数 的 MiniCPM-V 4.0，在 OpenCompass（8大主流视觉基准） 中取得 69.0 分，超越了：
- GPT-4.1-mini-20250414
- MiniCPM-V 2.6（8.1B 参数）
- Qwen2.5-VL-3B-Instruct（3.8B 参数）
支持 单图、多图、视频理解，具备 领先的 OCR、表格识别、多轮对话能力。

✅ 2. 极致端侧部署效率

iPhone 16 Pro Max 实测：
- 首 token 延迟 < 2 秒
- 解码速度 > 17 token/s
- 无明显发热
支持 llama.cpp、Ollama、vLLM、SGLang、LLaMA-Factory 等部署方式，并开源了 iOS 原生 App。

✅ 3. 开源 + 易用

模型已开源，地址：
- HuggingFace
- GitHub
提供 本地 Web Demo 和 iOS App，开发者可快速上手。

✅ 4. 小参数，大能量

相比传统多模态大模型动辄百B参数，MiniCPM-V 4.0 以 4.1B 参数 实现了 GPT-4V 级别的性能，真正做到了 “小而强”，适合 手机、平板、PC 等端侧部署。

📌 小结一句话：

MiniCPM-V 4.0 是目前唯一能在手机上流畅运行的 GPT-4V 级多模态模型，开源、高效、易用，标志着端侧 AI 进入“多模态 GPT-4V 时代”。

如需体验或部署，可直接访问其 GitHub 仓库或 HuggingFace 页面。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：腾讯推出开源项目 WeKnora维娜拉：用于文档解读与语义搜索

下一篇：开源更新：MiniCPM-V 4.0 – 面壁智能的全新多模态模型版本

开源发布MiniCPM-V4.0，被誉为“手机版GPT-4V”

✅ 1. 超强视觉理解能力，超越 GPT-4V

✅ 2. 极致端侧部署效率

✅ 3. 开源 + 易用

✅ 4. 小参数，大能量

📌 小结一句话：

最新Ai信息

最新Ai工具

热门AI推荐