首页 > 快讯 > 微软发布新型语言模型 BitNet b1.58 2B4T，占用内存仅0.4GB

微软发布新型语言模型 BitNet b1.58 2B4T，占用内存仅0.4GB

发布时间：2025-04-18 09:51:25 | 责任编辑：字母汇 | 浏览量：75 次

近日，微软研究团队正式发布了一款名为 BitNet b1.582B4T 的开源大型语言模型。这款模型拥有20亿参数，采用了独特的1.58位低精度架构进行原生训练，与传统的训练后量化方式相比，BitNet 在计算资源的需求上有了显著的降低。根据微软的介绍，该模型在非嵌入内存占用方面仅为0.4GB，远低于市场上其他同类产品，如 Gemma-31B 的1.4GB 和 MiniCPM2B 的4.8GB。
BitNet 的高效性能源于其创新的架构设计。模型放弃了传统的16位数值，而是采用了定制的 BitLinear 层，限制权重为 -1、0和 +1三种状态，形成了三值系统，这使得每个权重仅需约1.58位的信息存储。此外，层间的激活值则采用8位整数进行量化，从而形成了 W1.58A8的配置。微软还对 Transformer 架构进行了调整，引入了平方 ReLU 激活函数、标准旋转位置嵌入（RoPE）和 subln 归一化，以确保低位训练的稳定性。
在开发过程中，BitNet 经历了三个阶段:首先以4万亿 token 的网络数据、代码和合成数学数据集进行预训练;接着通过公开及合成指令数据集进行监督微调;最后采用直接偏好优化（DPO）方法，利用 UltraFeedback 等数据集提升模型的对话能力和安全性。
微软的测试结果显示，BitNet 在 GSM8K（数学）和 PIQA(物理常识)等基准测试中的表现非常出色，整体性能与主流的1B-2B 参数全精度模型相当，同时在能耗(每 token 消耗0.028焦耳)和 CPU 解码延迟(29毫秒)上具备明显的优势。
尽管 BitNet 展现出巨大的潜力，但其高效性依赖于微软提供的专用 C++ 框架 bitnet.cpp。常见的工具如 Hugging Face transformers 库无法完全体现其速度与能耗的优势。微软未来还计划优化 GPU 和 NPU 的支持，扩展上下文窗口至4096token，并探索更大规模的模型及多语言功能。现如今，BitNet b1.582B4T 已经以 MIT 许可证在 Hugging Face 平台发布，供广大开发者和研究人员进行测试和应用。
论文：https://arxiv.org/html/2504.12285v1
划重点:
🌟 该模型具有20亿参数，内存占用仅为0.4GB，显著低于同类产品。
🔧 采用创新架构，放弃传统16位数值，使用1.58位低精度存储权重。
🚀 已经在 Hugging Face 发布，微软计划进一步优化模型功能与性能。

微软发布新型语言模型 BitNet b1.58 2B4T，占用内存仅0.4GB-项目/模型网址:
Hugging Face

微软于2025年4月推出了新型语言模型 BitNet b1.58 2B4T，这是一个开源的、原生1比特的大型语言模型（LLM），拥有20亿参数。该模型在训练时直接使用1.58比特架构，而不是在训练后进行量化。BitNet b1.58 2B4T 的主要特点如下：

架构与技术

1.58比特量化：模型的权重被量化为三个可能的值：-1、0和+1，这种量化方式使得模型在存储和计算上更加高效。
激活量化：激活值被量化为8比特整数，采用“绝对最大值（absmax）”量化策略。
自定义层：模型用自定义的 BitLinear 层替换了标准的全精度线性层。

性能与效率

内存占用：仅占用0.4GB非嵌入式内存，远低于其他类似规模的模型，例如 Google 的 Gemma 3 1B 占用1.4GB。
解码延迟：在CPU上解码的延迟仅为29毫秒，比其他模型快得多。
能耗：每处理一个token的能耗仅为0.028焦耳，远低于其他模型。

训练与表现

大规模训练：模型在包含4万亿token的语料库上进行训练，这相当于约3300万本书。
性能表现：在语言理解、数学推理、编程能力和对话能力等多个基准测试中，BitNet b1.58 2B4T 的表现与领先的全精度模型相当。

开源与可用性

开源发布：模型权重已在 Hugging Face 上发布，并提供了针对 GPU 和 CPU 架构的开源推理实现。
推理框架：为了实现高效的推理，微软开发了专门的 bitnet.cpp 推理框架。使用该框架可以在 CPU 上实现显著的性能提升。

未来展望

微软计划在未来进一步扩展 BitNet 模型的规模，并探索硬件协同设计、扩展上下文长度以及增加多语言功能。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。