首页 > 快讯 > 面壁智能发布MiniCPM 4.0终端大模型，速度提升至220倍

面壁智能发布MiniCPM 4.0终端大模型，速度提升至220倍

发布时间：2025-06-08 12:40:07 | 责任编辑：吴昊 | 浏览量：168 次

6月6日，面壁智能正式推出其最新力作——MiniCPM4.0系列模型，这一系列被誉为“有史以来最具想象力的小钢炮”，不仅在端侧性能上实现了飞跃，更在技术创新上树立了新的标杆。
MiniCPM4.0系列包含两款重量级产品:一款是8B闪电稀疏版，以其创新稀疏架构掀起高效风暴;另一款则是仅0.5B的轻巧灵动版，被誉为“最强小小钢炮”。这两款模型在速度、效能、性能及落地应用上均展现出卓越表现。
在速度方面，MiniCPM4.0实现了极限情况下220倍、常规5倍的速度提升，这一突破得益于系统级稀疏创新的层层加速。通过高效双频换挡技术，模型能够根据文本长度自动切换稀疏与稠密注意力机制，确保长文本处理快速且高效，同时大幅减少端侧存储需求，相较于同类模型Qwen3-8B，仅需1/4的缓存存储空间。
效能上，MiniCPM4.0贡献了行业首例全开源的系统级上下文稀疏化高效创新，以5%的极高稀疏度实现极限加速，并融合自研创新技术，从架构层、系统层、推理层到数据层进行全面优化，真正做到系统级软硬件稀疏化高效落地。
性能方面，MiniCPM4.0延续了“以小博大”的传统，0.5B版本仅以2.7%的训练开销便达到了一半参数、性能翻倍的效果;而8B稀疏版则以22%的训练开销对标并超越Qwen3及Gemma312B，巩固了其在端侧领域的领先地位。
落地应用上，MiniCPM4.0展现出强悍的实力。通过自研CPM.cu极速端侧推理框架，结合投机采样创新、模型压缩量化创新及端侧部署框架创新，实现了模型瘦身90%的同时极致提升速度，确保端侧推理从天生到终生的丝滑体验。
目前，该模型已成功适配Intel、高通、MTK、华为昇腾等主流芯片，并在多个开源框架上实现部署，进一步拓展了其应用潜力。
模型合集:
https://www.modelscope.cn/collections/MiniCPM-4-ec015560e8c84d
Github:
https://github.com/openbmb/minicpm

面壁智能于2025年6月6日晚发布了端侧大模型MiniCPM 4.0。该模型通过自研的CPM.cu推理框架，在极限场景下实现了最高220倍的速度提升，在常规场景下也有5倍的速度提升。MiniCPM 4.0系列包含两款模型：

8B闪电稀疏版：采用创新稀疏架构，适用于处理长文本和深度思考任务。
0.5B轻巧灵动版：体积小且灵活，适合短文本处理。

MiniCPM 4.0的性能提升主要得益于以下技术创新：

混合稀疏注意力机制：通过分块分区域处理文本，只对重点区域进行注意力计算，大幅降低计算量。
高效双频换挡技术：根据文本长度自动切换稀疏与稠密注意力机制，确保处理效率和精度。
自研端侧高性能推理框架CPM.cu：结合投机采样、模型压缩量化等技术，实现模型瘦身90%和速度提升。

此外，MiniCPM 4.0还支持在多个开源框架上部署，如vLLM、SGLang、LlamaFactory等，并已适配Intel、高通、MTK、华为昇腾等主流芯片。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。