微软发布新型语言模型 BitNet b1.58 2B4T,占用内存仅0.4GB
发布时间:2025-04-18 09:51:25 | 责任编辑:字母汇 | 浏览量:17 次
近日,微软研究团队正式发布了一款名为 BitNet b1.582B4T 的开源大型语言模型。这款模型拥有20亿参数,采用了独特的1.58位低精度架构进行原生训练,与传统的训练后量化方式相比,BitNet 在计算资源的需求上有了显著的降低。根据微软的介绍,该模型在非嵌入内存占用方面仅为0.4GB,远低于市场上其他同类产品,如 Gemma-31B 的1.4GB 和 MiniCPM2B 的4.8GB。
BitNet 的高效性能源于其创新的架构设计。模型放弃了传统的16位数值,而是采用了定制的 BitLinear 层,限制权重为 -1、0和 +1三种状态,形成了三值系统,这使得每个权重仅需约1.58位的信息存储。此外,层间的激活值则采用8位整数进行量化,从而形成了 W1.58A8的配置。微软还对 Transformer 架构进行了调整,引入了平方 ReLU 激活函数、标准旋转位置嵌入(RoPE)和 subln 归一化,以确保低位训练的稳定性。
在开发过程中,BitNet 经历了三个阶段:首先以4万亿 token 的网络数据、代码和合成数学数据集进行预训练;接着通过公开及合成指令数据集进行监督微调;最后采用直接偏好优化(DPO)方法,利用 UltraFeedback 等数据集提升模型的对话能力和安全性。
微软的测试结果显示,BitNet 在 GSM8K(数学)和 PIQA(物理常识)等基准测试中的表现非常出色,整体性能与主流的1B-2B 参数全精度模型相当,同时在能耗(每 token 消耗0.028焦耳)和 CPU 解码延迟(29毫秒)上具备明显的优势。
尽管 BitNet 展现出巨大的潜力,但其高效性依赖于微软提供的专用 C++ 框架 bitnet.cpp。常见的工具如 Hugging Face transformers 库无法完全体现其速度与能耗的优势。微软未来还计划优化 GPU 和 NPU 的支持,扩展上下文窗口至4096token,并探索更大规模的模型及多语言功能。现如今,BitNet b1.582B4T 已经以 MIT 许可证在 Hugging Face 平台发布,供广大开发者和研究人员进行测试和应用。
论文:https://arxiv.org/html/2504.12285v1
划重点:
🌟 该模型具有20亿参数,内存占用仅为0.4GB,显著低于同类产品。
🔧 采用创新架构,放弃传统16位数值,使用1.58位低精度存储权重。
🚀 已经在 Hugging Face 发布,微软计划进一步优化模型功能与性能。
Hugging Face
微软于2025年4月推出了新型语言模型 BitNet b1.58 2B4T,这是一个开源的、原生1比特的大型语言模型(LLM),拥有20亿参数。该模型在训练时直接使用1.58比特架构,而不是在训练后进行量化。BitNet b1.58 2B4T 的主要特点如下:
架构与技术
- 1.58比特量化:模型的权重被量化为三个可能的值:-1、0和+1,这种量化方式使得模型在存储和计算上更加高效。
- 激活量化:激活值被量化为8比特整数,采用“绝对最大值(absmax)”量化策略。
- 自定义层:模型用自定义的 BitLinear 层替换了标准的全精度线性层。
性能与效率
- 内存占用:仅占用0.4GB非嵌入式内存,远低于其他类似规模的模型,例如 Google 的 Gemma 3 1B 占用1.4GB。
- 解码延迟:在CPU上解码的延迟仅为29毫秒,比其他模型快得多。
- 能耗:每处理一个token的能耗仅为0.028焦耳,远低于其他模型。
训练与表现
- 大规模训练:模型在包含4万亿token的语料库上进行训练,这相当于约3300万本书。
- 性能表现:在语言理解、数学推理、编程能力和对话能力等多个基准测试中,BitNet b1.58 2B4T 的表现与领先的全精度模型相当。
开源与可用性
- 开源发布:模型权重已在 Hugging Face 上发布,并提供了针对 GPU 和 CPU 架构的开源推理实现。
- 推理框架:为了实现高效的推理,微软开发了专门的
bitnet.cpp
推理框架。使用该框架可以在 CPU 上实现显著的性能提升。
未来展望
微软计划在未来进一步扩展 BitNet 模型的规模,并探索硬件协同设计、扩展上下文长度以及增加多语言功能。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。