首页 > 快讯 > 面壁智能发布MiniCPM 4.0终端大模型,速度提升至220倍

面壁智能发布MiniCPM 4.0终端大模型,速度提升至220倍

发布时间:2025-06-08 12:40:07 | 责任编辑:吴昊 | 浏览量:49 次

6月6日,面壁智能正式推出其最新力作——MiniCPM4.0系列模型,这一系列被誉为“有史以来最具想象力的小钢炮”,不仅在端侧性能上实现了飞跃,更在技术创新上树立了新的标杆。
MiniCPM4.0系列包含两款重量级产品:一款是8B闪电稀疏版,以其创新稀疏架构掀起高效风暴;另一款则是仅0.5B的轻巧灵动版,被誉为“最强小小钢炮”。这两款模型在速度、效能、性能及落地应用上均展现出卓越表现。
在速度方面,MiniCPM4.0实现了极限情况下220倍、常规5倍的速度提升,这一突破得益于系统级稀疏创新的层层加速。通过高效双频换挡技术,模型能够根据文本长度自动切换稀疏与稠密注意力机制,确保长文本处理快速且高效,同时大幅减少端侧存储需求,相较于同类模型Qwen3-8B,仅需1/4的缓存存储空间。
效能上,MiniCPM4.0贡献了行业首例全开源的系统级上下文稀疏化高效创新,以5%的极高稀疏度实现极限加速,并融合自研创新技术,从架构层、系统层、推理层到数据层进行全面优化,真正做到系统级软硬件稀疏化高效落地。
性能方面,MiniCPM4.0延续了“以小博大”的传统,0.5B版本仅以2.7%的训练开销便达到了一半参数、性能翻倍的效果;而8B稀疏版则以22%的训练开销对标并超越Qwen3及Gemma312B,巩固了其在端侧领域的领先地位。
落地应用上,MiniCPM4.0展现出强悍的实力。通过自研CPM.cu极速端侧推理框架,结合投机采样创新、模型压缩量化创新及端侧部署框架创新,实现了模型瘦身90%的同时极致提升速度,确保端侧推理从天生到终生的丝滑体验。
目前,该模型已成功适配Intel、高通、MTK、华为昇腾等主流芯片,并在多个开源框架上实现部署,进一步拓展了其应用潜力。
模型合集:
https://www.modelscope.cn/collections/MiniCPM-4-ec015560e8c84d
Github:
https://github.com/openbmb/minicpm

面壁智能发布MiniCPM 4.0终端大模型,速度提升至220倍

面壁智能于2025年6月6日晚发布了端侧大模型MiniCPM 4.0。该模型通过自研的CPM.cu推理框架,在极限场景下实现了最高220倍的速度提升,在常规场景下也有5倍的速度提升。MiniCPM 4.0系列包含两款模型:

  • 8B闪电稀疏版:采用创新稀疏架构,适用于处理长文本和深度思考任务。

  • 0.5B轻巧灵动版:体积小且灵活,适合短文本处理。

MiniCPM 4.0的性能提升主要得益于以下技术创新:

  1. 混合稀疏注意力机制:通过分块分区域处理文本,只对重点区域进行注意力计算,大幅降低计算量。

  2. 高效双频换挡技术:根据文本长度自动切换稀疏与稠密注意力机制,确保处理效率和精度。

  3. 自研端侧高性能推理框架CPM.cu:结合投机采样、模型压缩量化等技术,实现模型瘦身90%和速度提升。

此外,MiniCPM 4.0还支持在多个开源框架上部署,如vLLM、SGLang、LlamaFactory等,并已适配Intel、高通、MTK、华为昇腾等主流芯片。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复