E03: 如何让AI不再遗忘?大语言模型的记忆革命
SEED TALK | AI系列第三期
分享人:@Charlotte
日期:2026-01-24 21:26:51
录制文件:https://meeting.tencent.com/crm/KEEYQywYf7
访问密码:EHLT
论文链接:2601.07372v1.pdf
llm用计算模拟检索,非常浪费
engram流程:分词器压缩,多头哈希,上下文感知门控
engram的优化:解耦记忆与计算 多级缓存
engram验证:槽位数量,参数分配,
Key Contributions:
-
稀疏性分配(条件计算): 我们明确了神经计算 (MoE) 与静态记忆 (Engram) 之间的权衡关系,并发现了一种 U 型缩放法则 ,用以指导最优的容量分配。
-
经验验证: 在严格的等参数量和等计算量约束下,Engram-27B 模型在知识、推理、代码及数学领域均表现出优于 MoE 基准模型的持续改进。
-
机理分析: 分析表明,Engram 模块将浅层网络从静态模式重建的任务中解放出来,从而可能为复杂推理保留了更有效的网络深度。
-
系统效率: 该模块采用确定性寻址机制,能够以极低的推理开销将大规模嵌入表卸载至主机内存中。
N-gram n个连续单词(token)组成的序列
将一些ngram存储起来查找
为什么提到Ngram
MOE成功在于条件计算(稀疏性)
语言建模是由2种子任务的:知识推理(计算) 和 知识检索(记忆)
知识推理的优化是条件计算,类比引出条件记忆 egram
传统 embedding 词嵌入 无损嵌入 语义一致,表现不一致的词视为不同词,词表的浪费
分词器压缩:
Engram引入了一个词表投影层
用一个满射函数
-
把所有tokenID折叠为规范标识符
-
xt=P(xt)
-
有效的词表大小减少了23%
根据key contribution,读完这篇论文应该掌握:
-
为什么要引入 Engram - 权衡算力和记忆
核心痛点: 传统的 MoE 虽然通过稀疏激活节省了计算量,但它的参数本质上还是“神经计算”的一部分。论文提出一个观点:并不是所有知识都需要通过复杂的矩阵运算(激活函数、注意力机制)来获取,有些事实性知识可以通过更低成本的“查表”(Engram)来完成。U 型缩放法则: 这是最强的理论支撑。你要展示当 MoE 和 Engram 达到某种比例时性能最好。这意味着“全算力”或“全记忆”都不是最优解,论证这种平衡点的存在是论文的科学价值所在。
Transformer架构
缺少原生的知识查找,只能通过计算来模拟查找,很低效
标准的 Transformer 模型主要由两个模块构成:
-
Encoder(左边):负责理解输入文本,为每个输入构造对应的语义表示(语义特征);
-
Decoder(右边):负责生成输出,使用 Encoder 输出的语义表示结合其他输入来生成目标序列。
MOE架构
在混合专家模型 (MoE) 中,我们将传统 Transformer 模型中的每个前馈网络 (FFN) 层替换为 MoE 层,其中 MoE 层由两个核心部分组成: 一个门控网络和若干数量的专家。
Engram模块
通过检索静态N元语法记忆并将其与动态隐藏状态融合来增强主干网络。
稀疏性分配 & Engram 模型的缩放规律
稀疏性分配:模型不需要追求极致的稀疏(纯 MoE),而是在 “稀疏” 和 “密集” 之间找到一个混合的平衡点(U 型曲线的谷底),效果最好。记忆容量缩放:在理论上的 “无限内存” 场景下,模型的效果会随着记忆容量(嵌入槽位)的增加而稳定提升,而且 Engram 这种架构在这方面表现得尤为出色。
稀疏性分配
-
横轴:分配比例 ρ(ρ 越小,模型越 “稀疏”;ρ=100% 就是纯 MoE 模型)
-
纵轴:验证损失(Validation Loss,数值越小,模型效果越好)
-
两条曲线:分别代表两种计算预算(2e20 和 6e20 FLOPs,后者计算量更大)
关键结论:
-
U 型曲线规律:
-
当 ρ 从 40% 往 70%-80% 走时,验证损失先下降,说明模型效果在变好。
-
当 ρ 超过 80% 后,损失又开始上升,说明效果在变差。
-
这个 “先变好后变差” 的 U 型说明,混合分配(Hybrid Allocation)比纯 MoE(ρ=100%)效果更好。
-
-
计算预算的影响:
-
计算量更大的模型(6e20,深紫色)整体损失更低,说明增加计算资源确实能提升效果。
-
但它同样遵循 U 型规律,说明无论计算预算高低,混合分配都是更优的选择。
-
Engram 模型的缩放规律
-
横轴:嵌入槽位数量,用对数刻度表示(从 1 到 10,000,000)
-
纵轴:验证损失(Validation Loss)
-
两条曲线:Engram 模型 vs OverEncoding 模型
关键结论:
对数线性下降:
-
随着嵌入槽位数量的增加,验证损失呈近似直线的下降趋势(在对数坐标下)。
-
这说明模型的记忆容量越大,效果就越好,而且这种提升是稳定、可预测的。
模型对比:
-
Engram 模型(深紫色)的损失始终比 OverEncoding(浅绿色)更低,说明它在利用更多嵌入槽位时效率更高。
-
左上角的 “Pure MoE” 点损失最高,再次印证了左边图的结论:纯 MoE 不如混合分配的模型。
-
“公平竞赛”下的优越性 - 实验结果的可信度
Iso-parameter / Iso-FLOPs: 这一点极其重要。在同样的存储成本和计算成本下,Engram-27B 强于 MoE 基准。全能性: 重点展示它不仅在“知识类”(靠背诵)表现好,在“推理、代码、数学”(靠逻辑)也变强了。这能反驳“Engram 只是个数据库”的质疑。
iso-parameters:参数总量对等,呼应前文 “iso-parameter” 的核心含义,强调两个模型总参数量完全一致,符合论文 “公平对比” 的实验设计逻辑。activated parameters:激活参数量,是稀疏模型的核心指标,指模型每处理一个 token 时实际参与计算的参数规模。training-time benchmark trajectories:训练阶段基准测试过程数据,“trajectories” 在此处表示模型训练全过程中性能指标的变化曲线,而非字面意义的 “轨迹”。routed experts:路由专家网络,特指 MoE 模型中由门控机制筛选、实际参与计算的专家子网络。
稠密模型、混合专家模型与记忆印记模型的预训练性能对比
所有模型均在 2620 亿个 token 上完成训练,且激活参数量保持一致(38 亿)。
Engram-27B 模型通过将混合专家模型的路由专家网络参数(数量从 72 个缩减至 55 个)重新分配至一个 57 亿参数量的记忆印记存储模块,实现了与 MoE-27B 模型的参数总量对等。
Engram-40B 模型则在保持激活参数预算不变的前提下,进一步扩增了记忆印记存储模块的规模(参数量提升至 185 亿)。
-
分工明确 - 为什么引入 Engram 能让推理变强?
解耦: 这是一个非常形象的论点。普通的 LLM 在前几层往往要花很大精力去“重建模式/背诵事实”。深度释放: 论证 Engram 承担了“体力活”(搬运事实性数据),从而让后层的神经元能专注于更高级的“脑力活”(逻辑链条推演)。这解释了为什么模型在推理任务上会有质的提升。
-
Engram 对推理的提升还体现在长文本场景
核心逻辑是 “释放注意力资源聚焦全局上下文”
传统 Transformer 的注意力机制需要同时处理 “局部依赖”(如短语、实体)和 “全局关联”(如跨句逻辑、多步推理),二者存在资源竞争。Engram 通过将局部依赖交由查找操作处理,为注意力机制释放了大量容量,使其能更高效地捕捉长文本中的全局上下文关联 —— 例如在 “多查询找关键信息(MultiQuery NIAH)” 任务中,Engram-27B 准确率从 84.2 提升至 97.0,在 “变量跟踪(Variable Tracking)” 任务中从 77.0 提升至 89.0(表 2),证明其在长文本推理中能更好地整合全局信息,避免注意力被局部细节分散。
-
通用推理:BBH(多步推理基准)提升 5.0 个百分点(50.9→55.9),ARC-Challenge(科学推理)提升 3.7 个百分点(70.1→73.8),DROP(离散推理型阅读)提升 3.3 个百分点(55.7→59.0);
-
数学推理:GSM8K(小学数学)提升 2.2 个百分点(58.4→60.6),MATH(高中数学)提升 2.4 个百分点(28.3→30.7);
-
代码推理:HumanEval(代码通过率)提升 3.0 个百分点(37.8→40.8)。
特别强调,这些推理任务的提升幅度超过知识类任务(如 MMLU 提升 3.4),反驳了 “Engram 只是个知识数据库” 的质疑 —— 证明其不仅能存储静态知识,更能通过优化模型资源分配(计算→推理,注意力→全局关联),从根本上增强动态逻辑推理能力。
-
释放早期层资源,专注复杂推理(核心逻辑)
论文指出,传统 Transformer(包括 MoE 模型)缺乏原生知识查找组件,必须通过计算重构静态信息—— 例如识别多 token 实体(如 “Diana, Princess of Wales”)时,需要消耗前 5-6 层的注意力和 FFN 资源来逐步组合特征(表 3),这导致宝贵的 “网络深度” 被浪费在琐碎的静态模式重建上,而非用于更高阶的推理(如多步逻辑、全局上下文关联)。
Engram 的作用在于:通过O (1) 常数时间查找直接检索静态模式(如实体、固定短语),将 Transformer 早期层从 “静态信息重构” 的负担中解放出来。这些早期层无需再消耗计算资源处理局部、固定的语言规律,转而专注于特征组合与复杂推理,相当于间接 “加深” 了模型用于推理的有效深度(图 4)。
-
实证支撑:表征相似性与有效深度提升
-
LogitLens 分析(图 4a):Engram 模型在早期层的 KL 散度(衡量中间输出与最终预测的差距)显著低于 MoE 基线,说明其更快完成 “预测就绪” 的特征组合,更早进入推理阶段。
-
CKA 分析(图 4b-c):Engram 浅层(如第 5 层)的表征与 MoE 深层(如第 12 层)高度相似(软对齐指数aj>j),证明 Engram 通过 “跳过静态重构步骤”,让浅层实现了深层的推理表征能力,等效于提升了模型的有效深度 —— 而更深的网络通常更擅长复杂推理。
-
这个模型在现实中跑得快吗?
确定性寻址 vs 路由选择: 对比传统的 MoE 路由(Router)存在的负载均衡、计算延迟等问题。Engram 的确定性寻址更简单、更稳定。异构存储利用: 重点论证它对显存(VRAM)压力的缓解。由于可以卸载到主机内存(Host Memory),这意味着我们可以在更便宜的硬件上跑更大的模型(即“大参数、小显存”),这是工业界非常关注的成本优势。
Engram 的 “存储 - 计算解耦” 设计
-
寻址逻辑的确定性:Engram 的记忆检索索引仅由输入 token 序列决定,无需依赖模型中间隐藏状态(MoE 需根据 hidden state 动态选择专家)。这意味着:
-
推理前即可提前计算出所有需要检索的记忆槽位,支持异步预取(runtime prefetching);
-
避免了 MoE 中 “动态路由导致的计算 - 通信耦合”(如专家并行时的跨设备数据搬运延迟)。
-
-
硬件内存层级的适配:
-
训练阶段:通过模型并行将大规模 Engram 嵌入表分片存储在多个 GPU 上,利用 All-to-All 通信原语高效聚合激活的嵌入行,内存容量随 GPU 数量线性扩展;
-
推理阶段:将 Engram 表卸载到主机内存(Host DRAM)甚至 NVMe SSD(而非依赖昂贵的 GPU HBM),结合 N-gram 的 Zipfian 分布特性(高频模式占多数访问),构建 “GPU HBM→Host DRAM→NVMe” 的多级缓存:
-
高频记忆槽位缓存于 GPU HBM,低延迟响应;
-
低频槽位存于主机内存 / SSD,仅占用极小带宽,不影响核心推理速度。
-
-
实证验证:推理吞吐量与开销量化
通过严格实验量化 Engram 的推理效率,直接回答,关键实验设计与结果如下:
-
硬件:NVIDIA H800 GPU(行业主流大模型推理硬件);
-
基准模型:2 个稠密模型(Dense-4B、Dense-8B),避免 MoE 动态路由干扰,聚焦 Engram 本身的开销;
-
Engram 配置:在 Transformer 第 2 层插入 1000 亿参数量的 Engram 表,全部卸载到主机内存;
-
测试负载:512 个序列,长度随机分布在 100-1024 token(模拟真实推理场景的文本长度差异)。
