E01: Transformer之后？DeepSeeK 26年元旦最新论文解读

SEED· AI主题分享第1期
分享人：@小明
日期: 2026-01-03 20:30
录制文件：https://meeting.tencent.com/crm/N1x6vE8Md9
密码：SWCG

总结：

本次分享介绍了DeepSeek最新论文针对“HyperConnection”结构的优化方案，并深入探讨了算法稳定性、算子工程优化及后续发展潜力。

1. DeepSeek模型优化的核心思想

驱动力：在算法设计上进行微小改动（如修改公式），核心目标是解决模型在特定硬件（GPU）上部署时的稳定性、效率和成本问题。
方法论：采用“解谜游戏”视角，将复杂的系统优化问题拆解为算子设计、存储管理、调度策略等多个步骤逐一攻克，确保模型既能进行大规模稳定训练，又能高效运行。

2. 模型架构优化（HyperConnection vs ResNet/H-Self-Attention）

Problem: DeepSeek在优化H-Connection（类似H-Self-Attention）结构时发现，其内部参数矩阵（H矩阵）可能导致梯度爆炸，影响模型训练的稳定性。
Solution: 引入Manifold Jam（流形约简）技术对H矩阵施加约束。该技术通过复杂的数学变换，确保矩阵的行列式范数小于等于1，从而有效地抑制了梯度爆炸风险，使模型更加稳定。
数据支持: 通过消融实验验证了该方法的有效性，移除H矩阵后模型loss上升了2%，而加入H矩阵后，整体效果改善了2%。

3. 工程实现优化

算子设计： DeepSeek会对模型中每个算子进行详细分析，评估其计算成本和数据依赖（输入/输出），以优化算子的合并与拆分，减少冗余计算和数据传输。
存储策略： 采用“能重算则不缓存”的原则，把中间的全零矩阵和激活层等功能性属性(如投影)缓存，而不是那些可以通过重计算得到的值，以降低对昂贵全局内存(GPU Global Memory)的访问压力。
调度与并行： 设计了支持高优先级任务（如主干路径）与普通任务混合调度的工作流，利用多个stream（队列）并行处理，以减少计算等待时间。

4. 对业界的潜在影响

DeepSeek的工程优化思路表明，仅通过提升模型训练的稳定性与可扩展性，便能在不依赖复杂算法创新的前提下，以更低的成本和更合适的硬件训练出高性能模型。此举可能为业界提供新的技术方向和参考。

笔记：

教学关卡：深度学习的网络连接

深度学习基本说明书

核心：通过前向传播算出一个残差（forward)，再通过后向(反向)传播(backward)，更新每个节点的权重，让输出尽可能接近想要学习的内容

结构

原始结构
Resnet
HC(hyper connection)

限制

梯度消失/梯度爆炸
system overload

章节任务：获得高效稳定的HC网络

任务：模型训练稳定

调查HC网络结构

跳过Hres连接

—— 学习效果差

不跳过Hres连接

—— 梯度爆炸

调查Hres数值约束

所有元素都是非负的（大于或等于0）
每一行的所有元素之和等于 1
每一列的所有元素之和也等于 1

🌟 HA + 数值约束 = mHA！

任务：将模型放到大规模集群下运行

调查mHA参数计算

按公式计算

RMSNorm 耗时过长

HA设计天然带有更多参数

RMSNorm 耗时过长

HA设计天然带有更多参数

算子融合

被融合的原始独立算子	融合后形成的新内核	新内核实现的主要功能
1. Sinkhorn投影中的行/列归一化算子	Sinkhorn迭代融合内核	在一个内核中，连续、原地完成矩阵的行求和与缩放、列求和与缩放，避免中间矩阵反复读写全局显存。
2. 投影矩阵`H_res` 的存储算子 3. 矩阵乘法 *`H_res x`** 算子	投影-乘法垂直融合内核	在完成一个矩阵块的Sinkhorn投影后，立即将其与输入`x` 的对应块进行计算，投影结果`H_res` 不写回显存，实现“计算即消费”，彻底消除中间矩阵的I/O。
4. FP16/FP32类型转换算子	混合精度计算融合内核	在数据加载、计算核心、结果写回的不同阶段，无缝嵌入精度转换。例如，从显存以FP16加载，在芯片上转为FP32进行高精度Sinkhorn计算，最终结果转为FP16写回。
5. 激活函数算子 6. RMSNorm算子	后处理融合内核	将矩阵乘法的输出，直接进行激活函数变换和RMSNorm的统计量计算与缩放，避免存储未归一化的中间激活值。

🌟 获得融合算子！

调查需要缓存的参数

参数类别	具体参数	是否缓存	原因与说明
核心模型参数	投影前原始矩阵 `H`	是 ✅	重计算的“种子”。Sinkhorn投影的前向和反向计算都依赖于此。缓存它比缓存整个投影过程的所有中间值更节省显存。
	层权重 `W_l` (如FFN)	是 ✅	重算层变换 `F(x, W_l)` 所必需的可学习参数。
	RMSNorm 缩放参数 `γ`	是 ✅	数据量极小（一个向量），为精确重算归一化步骤所必需。
关键激活检查点	网络主干输入 `x_l` (在关键层)	是 ✅	应用标准检查点技术，间隔性缓存某层的完整输入，作为重算一个网络片段的起点。
中间激活与派生数据	Sinkhorn投影的所有中间矩阵	否 ❌	主要丢弃对象。数据量巨大，但可由原始 `H` 确定性地完全重算。
	层内计算中间激活 (如FFN内部)	否 ❌	数据量大，可由缓存的 `x_l` 和 `W_l` 重算。
	投影后矩阵 `H_res`	否 ❌	虽然用于前向计算，但它是 `H` 的派生数据，可从 `H` 重投影得到。

E01: Transformer之后？DeepSeeK 26年元旦最新论文解读

总结：

1. DeepSeek模型优化的核心思想

2. 模型架构优化（HyperConnection vs ResNet/H-Self-Attention）

3. 工程实现优化

4. 对业界的潜在影响

笔记：

教学关卡：深度学习的网络连接

深度学习基本说明书

结构

限制

章节任务：获得高效稳定的HC网络

任务：模型训练稳定

调查HC网络结构

调查Hres数值约束

🌟 HA + 数值约束 = mHA！

任务：将模型放到大规模集群下运行

调查mHA参数计算

🌟 获得融合算子！

调查需要缓存的参数

🌟 获得重计算工作流！

调查Cuda调度原理

调查工作流

👑 Mission Complete！

E01: Transformer之后？DeepSeeK 26年元旦最新论文解读

总结：

​​1. DeepSeek模型优化的核心思想​​

​​2. 模型架构优化（HyperConnection vs ResNet/H-Self-Attention）​​

​​3. 工程实现优化​​

​​4. 对业界的潜在影响​​

笔记：

教学关卡：深度学习的网络连接

深度学习基本说明书

结构

限制

章节任务：获得高效稳定的HC网络

任务：模型训练稳定

调查HC网络结构

调查Hres数值约束

🌟 HA + 数值约束 = mHA！

任务：将模型放到大规模集群下运行

调查mHA参数计算

🌟 获得融合算子 ！

调查需要缓存的参数

🌟 获得重计算工作流！

调查Cuda调度原理

调查工作流

👑 Mission Complete！

1. DeepSeek模型优化的核心思想

2. 模型架构优化（HyperConnection vs ResNet/H-Self-Attention）

3. 工程实现优化

4. 对业界的潜在影响

🌟 获得融合算子！