DeepSeek 发布 Engram 组件:为稀疏大型模型注入“情境记忆线”,显著增强效能
发布时间:2026-01-15 19:36:45 | 责任编辑:张毅 | 浏览量:15 次
传统的 Transformer 模型在处理重复性知识时往往显得有些“浪费”,每次遇到相同的模式都需要重新计算,这不仅消耗深度也浪费了计算资源。为了打破这一瓶颈,DeepSeek 的研究团队近日推出了一项名为 Engram 的创新模块,为稀疏大语言模型(LLM)引入了一个高效的“条件记忆轴”。
与现有的混合专家模型(MoE)不同,Engram 并不是要取代它,而是作为一种补充,将经典的 N-gram 嵌入技术现代化,转化为一种可扩展的、查询复杂度为 $O(1)$ 的查找存储库。简单来说,Engram 就像是模型的一个“快捷记忆本”,专门存储常见的短语、实体等静态模式,让模型骨干网络能够腾出精力去处理更复杂的推理和长距离交互。
在实际应用中,DeepSeek团队在包含2620亿 token 的数据集上进行了预训练测试。实验结果显示,通过将约20% 到25% 的稀疏参数预算分配给 Engram 内存,模型的验证损失得到了显著优化。在 Engram-27B 和 Engram-40B 模型的测试中,即便激活参数保持不变,模型在知识库、推理、代码和数学等多项基准测试(如 MMLU、GSM8K)中的表现均优于纯 MoE 基准模型。
此外,Engram 在长文本处理上也表现出色。在扩展到32,768个 token 的上下文窗口后,Engram 模型在多查询“大海捞针”(NIAH)和变量跟踪等任务中均展现了更强的准确性。这种设计不仅提升了模型的知识储备,还通过分担静态重构任务,实际上变相增加了模型的有效深度,让 AI 变得更加聪明且高效。
划重点:
🧠 创新架构: DeepSeek引入 Engram 模块,通过 $O(1)$ 哈希查找实现静态知识的高效检索,让模型骨干更专注于逻辑推理。
📈 性能飞跃: 在同等计算资源下,引入 Engram 的27B 和40B 模型在 MMLU、数学及代码等核心榜单上全面超越传统的 MoE 架构。
📑 长文本增强: 该技术显著提升了模型在长上下文环境下的召回能力,在32k 长度的测试中表现优异,且有效降低了预测所需的层间损耗。
这是一篇关于DeepSeek 推出 Engram 模块:为稀疏大模型植入“条件记忆轴”,效率大幅提升的文章,内容值得关注。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
