跳转到主要内容

第一期:Transformer之后?DEEPSEEK 26年元旦最新论文解读

读书会-活动海报-SEED TALK-AI分享第一期.png

SEED· AI主题分享第1期
分享人:@小明
日期: 2026-01-03 20:29:20
录制文件:https://meeting.tencent.com/crm/N1x6vE8Md9
密码:SWCG

本次分享介绍了DeepSeek最新论文针对“HyperConnection”结构的优化方案,并深入探讨了算法稳定性、算子工程优化及后续发展潜力。

​​1. DeepSeek模型优化的核心思想​​

​​驱动力​​:在算法设计上进行微小改动(如修改公式),核心目标是解决模型在特定硬件(GPU)上部署时的稳定性、效率和成本问题。
​​方法论​​:采用“解谜游戏”视角,将复杂的系统优化问题拆解为算子设计、存储管理、调度策略等多个步骤逐一攻克,确保模型既能进行大规模稳定训练,又能高效运行。

 

​​2. 模型架构优化(HyperConnection vs ResNet/H-Self-Attention)​​

​​Problem​​: DeepSeek在优化H-Connection(类似H-Self-Attention)结构时发现,其内部参数矩阵(H矩阵)可能导致梯度爆炸,影响模型训练的稳定性。
​​Solution​​: 引入Manifold Jam(流形约简)技术对H矩阵施加约束。该技术通过复杂的数学变换,确保矩阵的行列式范数小于等于1,从而有效地抑制了梯度爆炸风险,使模型更加稳定。
​​数据支持​​: 通过消融实验验证了该方法的有效性,移除H矩阵后模型loss上升了2%,而加入H矩阵后,整体效果改善了2%。

 

​​3. 工程实现优化​​

​​算子设计​​: DeepSeek会对模型中每个算子进行详细分析,评估其计算成本和数据依赖(输入/输出),以优化算子的合并与拆分,减少冗余计算和数据传输。
​​存储策略​​: 采用“能重算则不缓存”的原则,把中间的全零矩阵和激活层等功能性属性(如投影)缓存,而不是那些可以通过重计算得到的值,以降低对昂贵全局内存(GPU Global Memory)的访问压力。
​​调度与并行​​: 设计了支持高优先级任务(如主干路径)与普通任务混合调度的工作流,利用多个stream(队列)并行处理,以减少计算等待时间。

 

​​4. 对业界的潜在影响​​

DeepSeek的工程优化思路表明,仅通过提升模型训练的稳定性与可扩展性,便能在不依赖复杂算法创新的前提下,以更低的成本和更合适的硬件训练出高性能模型。此举可能为业界提供新的技术方向和参考。