首页 > 快讯 > DeepSeek 发布 Engram 组件：为稀疏大型模型注入“情境记忆线”，显著增强效能

DeepSeek 发布 Engram 组件：为稀疏大型模型注入“情境记忆线”，显著增强效能

发布时间：2026-01-15 19:36:45 | 责任编辑：张毅 | 浏览量：90 次

传统的 Transformer 模型在处理重复性知识时往往显得有些“浪费”，每次遇到相同的模式都需要重新计算，这不仅消耗深度也浪费了计算资源。为了打破这一瓶颈，DeepSeek 的研究团队近日推出了一项名为 Engram 的创新模块，为稀疏大语言模型（LLM）引入了一个高效的“条件记忆轴”。
与现有的混合专家模型（MoE）不同，Engram 并不是要取代它，而是作为一种补充，将经典的 N-gram 嵌入技术现代化，转化为一种可扩展的、查询复杂度为 $O(1)$ 的查找存储库。简单来说，Engram 就像是模型的一个“快捷记忆本”，专门存储常见的短语、实体等静态模式，让模型骨干网络能够腾出精力去处理更复杂的推理和长距离交互。
在实际应用中，DeepSeek团队在包含2620亿 token 的数据集上进行了预训练测试。实验结果显示，通过将约20% 到25% 的稀疏参数预算分配给 Engram 内存，模型的验证损失得到了显著优化。在 Engram-27B 和 Engram-40B 模型的测试中，即便激活参数保持不变，模型在知识库、推理、代码和数学等多项基准测试（如 MMLU、GSM8K）中的表现均优于纯 MoE 基准模型。
此外，Engram 在长文本处理上也表现出色。在扩展到32，768个 token 的上下文窗口后，Engram 模型在多查询“大海捞针”（NIAH）和变量跟踪等任务中均展现了更强的准确性。这种设计不仅提升了模型的知识储备，还通过分担静态重构任务，实际上变相增加了模型的有效深度，让 AI 变得更加聪明且高效。
划重点:
🧠 创新架构: DeepSeek引入 Engram 模块，通过 $O（1）$ 哈希查找实现静态知识的高效检索，让模型骨干更专注于逻辑推理。
📈 性能飞跃: 在同等计算资源下，引入 Engram 的27B 和40B 模型在 MMLU、数学及代码等核心榜单上全面超越传统的 MoE 架构。
📑 长文本增强: 该技术显著提升了模型在长上下文环境下的召回能力，在32k 长度的测试中表现优异，且有效降低了预测所需的层间损耗。

这是一篇关于DeepSeek 推出 Engram 模块：为稀疏大模型植入“条件记忆轴”，效率大幅提升的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： DeepSeek 引入 Engram 模块，为稀疏大型模型添加“条件记忆轴”，显著提高性能效率

下一篇： DeepSeek 发布 Engram 组件：为稀疏大型模型融入“情境记忆轴”，显著提高效能

DeepSeek 发布 Engram 组件：为稀疏大型模型注入“情境记忆线”，显著增强效能

最新Ai信息

最新Ai工具

热门AI推荐