E03: 如何让AI不再遗忘？大语言模型的记忆革命

SEED TALK | AI系列第三期
分享人：@Charlotte
日期：2026-01-24 21:26:51
录制文件：https://meeting.tencent.com/crm/KEEYQywYf7
访问密码：EHLT

论文链接：2601.07372v1.pdf

GitHub链接：https://github.com/deepseek-ai/Engram

llm用计算模拟检索，非常浪费

engram流程：分词器压缩，多头哈希，上下文感知门控

engram的优化：解耦记忆与计算多级缓存

engram验证：槽位数量，参数分配，

Key Contributions:

稀疏性分配（条件计算）： 我们明确了神经计算 (MoE) 与静态记忆 (Engram) 之间的权衡关系，并发现了一种 U 型缩放法则 ，用以指导最优的容量分配。
经验验证： 在严格的等参数量和等计算量约束下，Engram-27B 模型在知识、推理、代码及数学领域均表现出优于 MoE 基准模型的持续改进。
机理分析： 分析表明，Engram 模块将浅层网络从静态模式重建的任务中解放出来，从而可能为复杂推理保留了更有效的网络深度。
系统效率： 该模块采用确定性寻址机制，能够以极低的推理开销将大规模嵌入表卸载至主机内存中。

N-gram n个连续单词（token）组成的序列

将一些ngram存储起来查找

为什么提到Ngram

MOE成功在于条件计算（稀疏性）

语言建模是由2种子任务的：知识推理（计算）和知识检索（记忆）

知识推理的优化是条件计算，类比引出条件记忆 egram

传统 embedding 词嵌入无损嵌入语义一致，表现不一致的词视为不同词，词表的浪费

分词器压缩：

Engram引入了一个词表投影层

用一个满射函数

把所有tokenID折叠为规范标识符
xt=P(xt)
有效的词表大小减少了23%

根据key contribution，读完这篇论文应该掌握：

为什么要引入 Engram - 权衡算力和记忆

核心痛点： 传统的 MoE 虽然通过稀疏激活节省了计算量，但它的参数本质上还是“神经计算”的一部分。论文提出一个观点：并不是所有知识都需要通过复杂的矩阵运算（激活函数、注意力机制）来获取，有些事实性知识可以通过更低成本的“查表”（Engram）来完成。

U 型缩放法则： 这是最强的理论支撑。你要展示当 MoE 和 Engram 达到某种比例时性能最好。这意味着“全算力”或“全记忆”都不是最优解，论证这种平衡点的存在是论文的科学价值所在。

Transformer架构

缺少原生的知识查找，只能通过计算来模拟查找，很低效

标准的 Transformer 模型主要由两个模块构成：

Encoder（左边）：负责理解输入文本，为每个输入构造对应的语义表示（语义特征）；
Decoder（右边）：负责生成输出，使用 Encoder 输出的语义表示结合其他输入来生成目标序列。

MOE架构

在混合专家模型 (MoE) 中，我们将传统 Transformer 模型中的每个前馈网络 (FFN) 层替换为 MoE 层，其中 MoE 层由两个核心部分组成: 一个门控网络和若干数量的专家。

Engram模块

通过检索静态N元语法记忆并将其与动态隐藏状态融合来增强主干网络。

稀疏性分配 & Engram 模型的缩放规律

稀疏性分配：模型不需要追求极致的稀疏（纯 MoE），而是在 “稀疏” 和 “密集” 之间找到一个混合的平衡点（U 型曲线的谷底），效果最好。

记忆容量缩放：在理论上的 “无限内存” 场景下，模型的效果会随着记忆容量（嵌入槽位）的增加而稳定提升，而且 Engram 这种架构在这方面表现得尤为出色。

稀疏性分配

横轴：分配比例 ρ（ρ 越小，模型越 “稀疏”；ρ=100% 就是纯 MoE 模型）
纵轴：验证损失（Validation Loss，数值越小，模型效果越好）
两条曲线：分别代表两种计算预算（2e20 和 6e20 FLOPs，后者计算量更大）

关键结论：

U 型曲线规律：
1. 当 ρ 从 40% 往 70%-80% 走时，验证损失先下降，说明模型效果在变好。
2. 当 ρ 超过 80% 后，损失又开始上升，说明效果在变差。
3. 这个 “先变好后变差” 的 U 型说明，混合分配（Hybrid Allocation）比纯 MoE（ρ=100%）效果更好。
计算预算的影响：
1. 计算量更大的模型（6e20，深紫色）整体损失更低，说明增加计算资源确实能提升效果。
2. 但它同样遵循 U 型规律，说明无论计算预算高低，混合分配都是更优的选择。

Engram 模型的缩放规律

横轴：嵌入槽位数量，用对数刻度表示（从 1 到 10,000,000）
纵轴：验证损失（Validation Loss）
两条曲线：Engram 模型 vs OverEncoding 模型

关键结论：

对数线性下降：

随着嵌入槽位数量的增加，验证损失呈近似直线的下降趋势（在对数坐标下）。
这说明模型的记忆容量越大，效果就越好，而且这种提升是稳定、可预测的。

模型对比：

Engram 模型（深紫色）的损失始终比 OverEncoding（浅绿色）更低，说明它在利用更多嵌入槽位时效率更高。
左上角的 “Pure MoE” 点损失最高，再次印证了左边图的结论：纯 MoE 不如混合分配的模型。

“公平竞赛”下的优越性 - 实验结果的可信度

Iso-parameter / Iso-FLOPs： 这一点极其重要。在同样的存储成本和计算成本下，Engram-27B 强于 MoE 基准。

全能性： 重点展示它不仅在“知识类”（靠背诵）表现好，在“推理、代码、数学”（靠逻辑）也变强了。这能反驳“Engram 只是个数据库”的质疑。

iso-parameters：参数总量对等，呼应前文 “iso-parameter” 的核心含义，强调两个模型总参数量完全一致，符合论文 “公平对比” 的实验设计逻辑。

activated parameters：激活参数量，是稀疏模型的核心指标，指模型每处理一个 token 时实际参与计算的参数规模。

training-time benchmark trajectories：训练阶段基准测试过程数据，“trajectories” 在此处表示模型训练全过程中性能指标的变化曲线，而非字面意义的 “轨迹”。

routed experts：路由专家网络，特指 MoE 模型中由门控机制筛选、实际参与计算的专家子网络。

稠密模型、混合专家模型与记忆印记模型的预训练性能对比

所有模型均在 2620 亿个 token 上完成训练，且激活参数量保持一致（38 亿）。

Engram-27B 模型通过将混合专家模型的路由专家网络参数（数量从 72 个缩减至 55 个）重新分配至一个 57 亿参数量的记忆印记存储模块，实现了与 MoE-27B 模型的参数总量对等。

Engram-40B 模型则在保持激活参数预算不变的前提下，进一步扩增了记忆印记存储模块的规模（参数量提升至 185 亿）。

分工明确 - 为什么引入 Engram 能让推理变强？

解耦： 这是一个非常形象的论点。普通的 LLM 在前几层往往要花很大精力去“重建模式/背诵事实”。

深度释放： 论证 Engram 承担了“体力活”（搬运事实性数据），从而让后层的神经元能专注于更高级的“脑力活”（逻辑链条推演）。这解释了为什么模型在推理任务上会有质的提升。

Engram 对推理的提升还体现在长文本场景

核心逻辑是 “释放注意力资源聚焦全局上下文”

传统 Transformer 的注意力机制需要同时处理 “局部依赖”（如短语、实体）和 “全局关联”（如跨句逻辑、多步推理），二者存在资源竞争。Engram 通过将局部依赖交由查找操作处理，为注意力机制释放了大量容量，使其能更高效地捕捉长文本中的全局上下文关联 —— 例如在 “多查询找关键信息（MultiQuery NIAH）” 任务中，Engram-27B 准确率从 84.2 提升至 97.0，在 “变量跟踪（Variable Tracking）” 任务中从 77.0 提升至 89.0（表 2），证明其在长文本推理中能更好地整合全局信息，避免注意力被局部细节分散。

通用推理：BBH（多步推理基准）提升 5.0 个百分点（50.9→55.9），ARC-Challenge（科学推理）提升 3.7 个百分点（70.1→73.8），DROP（离散推理型阅读）提升 3.3 个百分点（55.7→59.0）；
数学推理：GSM8K（小学数学）提升 2.2 个百分点（58.4→60.6），MATH（高中数学）提升 2.4 个百分点（28.3→30.7）；
代码推理：HumanEval（代码通过率）提升 3.0 个百分点（37.8→40.8）。

特别强调，这些推理任务的提升幅度超过知识类任务（如 MMLU 提升 3.4），反驳了 “Engram 只是个知识数据库” 的质疑 —— 证明其不仅能存储静态知识，更能通过优化模型资源分配（计算→推理，注意力→全局关联），从根本上增强动态逻辑推理能力。

释放早期层资源，专注复杂推理（核心逻辑）

论文指出，传统 Transformer（包括 MoE 模型）缺乏原生知识查找组件，必须通过计算重构静态信息—— 例如识别多 token 实体（如 “Diana, Princess of Wales”）时，需要消耗前 5-6 层的注意力和 FFN 资源来逐步组合特征（表 3），这导致宝贵的 “网络深度” 被浪费在琐碎的静态模式重建上，而非用于更高阶的推理（如多步逻辑、全局上下文关联）。

Engram 的作用在于：通过O (1) 常数时间查找直接检索静态模式（如实体、固定短语），将 Transformer 早期层从 “静态信息重构” 的负担中解放出来。这些早期层无需再消耗计算资源处理局部、固定的语言规律，转而专注于特征组合与复杂推理，相当于间接 “加深” 了模型用于推理的有效深度（图 4）。

实证支撑：表征相似性与有效深度提升

LogitLens 分析（图 4a）：Engram 模型在早期层的 KL 散度（衡量中间输出与最终预测的差距）显著低于 MoE 基线，说明其更快完成 “预测就绪” 的特征组合，更早进入推理阶段。
CKA 分析（图 4b-c）：Engram 浅层（如第 5 层）的表征与 MoE 深层（如第 12 层）高度相似（软对齐指数aj>j），证明 Engram 通过 “跳过静态重构步骤”，让浅层实现了深层的推理表征能力，等效于提升了模型的有效深度 —— 而更深的网络通常更擅长复杂推理。

这个模型在现实中跑得快吗？

确定性寻址 vs 路由选择： 对比传统的 MoE 路由（Router）存在的负载均衡、计算延迟等问题。Engram 的确定性寻址更简单、更稳定。

异构存储利用： 重点论证它对显存（VRAM）压力的缓解。由于可以卸载到主机内存（Host Memory），这意味着我们可以在更便宜的硬件上跑更大的模型（即“大参数、小显存”），这是工业界非常关注的成本优势。

Engram 的 “存储 - 计算解耦” 设计

寻址逻辑的确定性：Engram 的记忆检索索引仅由输入 token 序列决定，无需依赖模型中间隐藏状态（MoE 需根据 hidden state 动态选择专家）。这意味着：
1. 推理前即可提前计算出所有需要检索的记忆槽位，支持异步预取（runtime prefetching）；
2. 避免了 MoE 中 “动态路由导致的计算 - 通信耦合”（如专家并行时的跨设备数据搬运延迟）。
硬件内存层级的适配：
1. 训练阶段：通过模型并行将大规模 Engram 嵌入表分片存储在多个 GPU 上，利用 All-to-All 通信原语高效聚合激活的嵌入行，内存容量随 GPU 数量线性扩展；
2. 推理阶段：将 Engram 表卸载到主机内存（Host DRAM）甚至 NVMe SSD（而非依赖昂贵的 GPU HBM），结合 N-gram 的 Zipfian 分布特性（高频模式占多数访问），构建 “GPU HBM→Host DRAM→NVMe” 的多级缓存：
  - 高频记忆槽位缓存于 GPU HBM，低延迟响应；
  - 低频槽位存于主机内存 / SSD，仅占用极小带宽，不影响核心推理速度。

实证验证：推理吞吐量与开销量化

通过严格实验量化 Engram 的推理效率，直接回答，关键实验设计与结果如下：

硬件：NVIDIA H800 GPU（行业主流大模型推理硬件）；
基准模型：2 个稠密模型（Dense-4B、Dense-8B），避免 MoE 动态路由干扰，聚焦 Engram 本身的开销；
Engram 配置：在 Transformer 第 2 层插入 1000 亿参数量的 Engram 表，全部卸载到主机内存；
测试负载：512 个序列，长度随机分布在 100-1024 token（模拟真实推理场景的文本长度差异）。

E03: 如何让AI不再遗忘？大语言模型的记忆革命

Key Contributions:

为什么要引入 Engram - 权衡算力和记忆

Transformer架构

MOE架构

Engram模块

稀疏性分配 & Engram 模型的缩放规律

稀疏性分配

关键结论：

Engram 模型的缩放规律

关键结论：

“公平竞赛”下的优越性 - 实验结果的可信度

稠密模型、混合专家模型与记忆印记模型的预训练性能对比

分工明确 - 为什么引入 Engram 能让推理变强？

Engram 对推理的提升还体现在长文本场景

释放早期层资源，专注复杂推理（核心逻辑）

实证支撑：表征相似性与有效深度提升

这个模型在现实中跑得快吗？

Engram 的 “存储 - 计算解耦” 设计

实证验证：推理吞吐量与开销量化