跳转到主要内容

E01: Transformer之后?DeepSeeK 26年元旦最新论文解读


SEED· AI主题分享第1期
分享人:@小明
日期: 2026-01-03 20:30
录制文件:https://meeting.tencent.com/crm/N1x6vE8Md9
密码:SWCG

总结:

本次分享介绍了DeepSeek最新论文针对“HyperConnection”结构的优化方案,并深入探讨了算法稳定性、算子工程优化及后续发展潜力。

​​1. DeepSeek模型优化的核心思想​​

​​驱动力​​:在算法设计上进行微小改动(如修改公式),核心目标是解决模型在特定硬件(GPU)上部署时的稳定性、效率和成本问题。
​​方法论​​:采用“解谜游戏”视角,将复杂的系统优化问题拆解为算子设计、存储管理、调度策略等多个步骤逐一攻克,确保模型既能进行大规模稳定训练,又能高效运行。


​​2. 模型架构优化(HyperConnection vs ResNet/H-Self-Attention)​​

​​Problem​​: DeepSeek在优化H-Connection(类似H-Self-Attention)结构时发现,其内部参数矩阵(H矩阵)可能导致梯度爆炸,影响模型训练的稳定性。
​​Solution​​: 引入Manifold Jam(流形约简)技术对H矩阵施加约束。该技术通过复杂的数学变换,确保矩阵的行列式范数小于等于1,从而有效地抑制了梯度爆炸风险,使模型更加稳定。
​​数据支持​​: 通过消融实验验证了该方法的有效性,移除H矩阵后模型loss上升了2%,而加入H矩阵后,整体效果改善了2%。


​​3. 工程实现优化​​

​​算子设计​​: DeepSeek会对模型中每个算子进行详细分析,评估其计算成本和数据依赖(输入/输出),以优化算子的合并与拆分,减少冗余计算和数据传输。
​​存储策略​​: 采用“能重算则不缓存”的原则,把中间的全零矩阵和激活层等功能性属性(如投影)缓存,而不是那些可以通过重计算得到的值,以降低对昂贵全局内存(GPU Global Memory)的访问压力。
​​调度与并行​​: 设计了支持高优先级任务(如主干路径)与普通任务混合调度的工作流,利用多个stream(队列)并行处理,以减少计算等待时间。


​​4. 对业界的潜在影响​​

DeepSeek的工程优化思路表明,仅通过提升模型训练的稳定性与可扩展性,便能在不依赖复杂算法创新的前提下,以更低的成本和更合适的硬件训练出高性能模型。此举可能为业界提供新的技术方向和参考。


笔记:

教学关卡:深度学习的网络连接

深度学习基本说明书

核心:通过前向传播算出一个残差(forward),再通过后向(反向)传播(backward),更新每个节点的权重,让输出尽可能接近想要学习的内容image.png


结构

原始结构

image.png

Resnet

image.png

HC(hyper connection)

image.png

限制

  • 梯度消失/梯度爆炸
  • system overload

章节任务:获得高效稳定的HC网络

任务:模型训练稳定

调查HC网络结构

image.png


image.png



跳过Hres连接

—— 学习效果差

不跳过Hres连接

—— 梯度爆炸

调查Hres数值约束
  • 所有元素都是非负的(大于或等于0)
  • 每一行的所有元素之和等于 1
  • 每一列的所有元素之和也等于 1

🌟 HA + 数值约束 = mHA!

image.png

image.png

任务:将模型放到大规模集群下运行

调查mHA参数计算

按公式计算

RMSNorm 耗时过长

HA设计天然带有更多参数


RMSNorm 耗时过长

HA设计天然带有更多参数

image.png

算子融合

被融合的原始独立算子

融合后形成的新内核

新内核实现的主要功能

1. Sinkhorn投影中的行/列归一化算子

Sinkhorn迭代融合内核

在一个内核中,连续、原地完成矩阵的行求和与缩放、列求和与缩放,避免中间矩阵反复读写全局显存。

2. 投影矩阵H_res

的存储算子
3. 矩阵乘法 H_res * x

算子

投影-乘法垂直融合内核

在完成一个矩阵块的Sinkhorn投影后,立即将其与输入x

的对应块进行计算,投影结果H_res

不写回显存,实现“计算即消费”,彻底消除中间矩阵的I/O。

4. FP16/FP32类型转换算子

混合精度计算融合内核

在数据加载、计算核心、结果写回的不同阶段,无缝嵌入精度转换。例如,从显存以FP16加载,在芯片上转为FP32进行高精度Sinkhorn计算,最终结果转为FP16写回。

5. 激活函数算子
6. RMSNorm算子

后处理融合内核

将矩阵乘法的输出,直接进行激活函数变换和RMSNorm的统计量计算与缩放,避免存储未归一化的中间激活值。

🌟 获得融合算子 !


调查需要缓存的参数

参数类别

具体参数

是否缓存

原因与说明

核心模型参数

投影前原始矩阵 H

重计算的“种子”。Sinkhorn投影的前向和反向计算都依赖于此。缓存它比缓存整个投影过程的所有中间值更节省显存。

 

层权重 W_l

(如FFN)

重算层变换 F(x, W_l)

所必需的可学习参数。

 

RMSNorm 缩放参数 γ

数据量极小(一个向量),为精确重算归一化步骤所必需。

关键激活检查点

网络主干输入 x_l

(在关键层)

应用标准检查点技术,间隔性缓存某层的完整输入,作为重算一个网络片段的起点。

中间激活与派生数据

Sinkhorn投影的所有中间矩阵

主要丢弃对象。数据量巨大,但可由原始 H

确定性地完全重算

 

层内计算中间激活 (如FFN内部)

数据量大,可由缓存的 x_l

W_l

重算。

 

投影后矩阵 H_res

虽然用于前向计算,但它是 H

的派生数据,可从 H

重投影得到。

🌟 获得重计算工作流!


调查Cuda调度原理

image.png

调查工作流

  • 对旁路部分算子,使用高优先级cuda队列计算
  • 重计算部分不占用IO等待

image.png

👑 Mission Complete!


读书会-活动海报-SEED TALK-AI分享第一期.png