第一期：Transformer之后？DEEPSEEK 26年元旦最新论文解读

SEED· AI主题分享第1期
分享人：@小明
日期: 2026-01-03 20:29:20
录制文件：https://meeting.tencent.com/crm/N1x6vE8Md9
密码：SWCG

本次分享介绍了DeepSeek最新论文针对“HyperConnection”结构的优化方案，并深入探讨了算法稳定性、算子工程优化及后续发展潜力。

1. DeepSeek模型优化的核心思想

驱动力：在算法设计上进行微小改动（如修改公式），核心目标是解决模型在特定硬件（GPU）上部署时的稳定性、效率和成本问题。
方法论：采用“解谜游戏”视角，将复杂的系统优化问题拆解为算子设计、存储管理、调度策略等多个步骤逐一攻克，确保模型既能进行大规模稳定训练，又能高效运行。

2. 模型架构优化（HyperConnection vs ResNet/H-Self-Attention）

Problem: DeepSeek在优化H-Connection（类似H-Self-Attention）结构时发现，其内部参数矩阵（H矩阵）可能导致梯度爆炸，影响模型训练的稳定性。
Solution: 引入Manifold Jam（流形约简）技术对H矩阵施加约束。该技术通过复杂的数学变换，确保矩阵的行列式范数小于等于1，从而有效地抑制了梯度爆炸风险，使模型更加稳定。
数据支持: 通过消融实验验证了该方法的有效性，移除H矩阵后模型loss上升了2%，而加入H矩阵后，整体效果改善了2%。

3. 工程实现优化

算子设计： DeepSeek会对模型中每个算子进行详细分析，评估其计算成本和数据依赖（输入/输出），以优化算子的合并与拆分，减少冗余计算和数据传输。
存储策略： 采用“能重算则不缓存”的原则，把中间的全零矩阵和激活层等功能性属性(如投影)缓存，而不是那些可以通过重计算得到的值，以降低对昂贵全局内存(GPU Global Memory)的访问压力。
调度与并行： 设计了支持高优先级任务（如主干路径）与普通任务混合调度的工作流，利用多个stream（队列）并行处理，以减少计算等待时间。

4. 对业界的潜在影响

DeepSeek的工程优化思路表明，仅通过提升模型训练的稳定性与可扩展性，便能在不依赖复杂算法创新的前提下，以更低的成本和更合适的硬件训练出高性能模型。此举可能为业界提供新的技术方向和参考。

第一期：Transformer之后？DEEPSEEK 26年元旦最新论文解读

​​1. DeepSeek模型优化的核心思想​​

​​2. 模型架构优化（HyperConnection vs ResNet/H-Self-Attention）​​

​​3. 工程实现优化​​

​​4. 对业界的潜在影响​​

1. DeepSeek模型优化的核心思想

2. 模型架构优化（HyperConnection vs ResNet/H-Self-Attention）

3. 工程实现优化

4. 对业界的潜在影响