复现DeepSeek MHC：当残差连接爆炸时的流形约束工程实现

自 2016 年 ResNet 提出残差连接以来，Transformer 架构一直沿用着相同的设计范式：$x_{l+1} = x_l + F (x_l)$。这一简单的恒等映射保证了梯度流的稳定性，使得数百层的深度网络成为可能。然而，当 DeepSeek 团队试图将这一设计扩展为更宽的超连接（Hyper-Connections, HC）时，他们遭遇了前所未有的信号爆炸问题 —— 在 27B 参数规模下，信号放大系数达到了惊人的 3000 倍。

本文通过 10M 参数规模的复现实验，深入剖析了这一问题的工程本质，并实现了基于流形约束的解决方案。

一、残差连接的守恒定律与超连接的突破尝试

标准残差连接的核心思想是信息守恒。输入信号 $x_l$ 通过恒等映射直接传递到下一层，同时加上该层的变换输出 $F (x_l)$。这种设计确保了：

梯度稳定性：梯度可以通过恒等路径直接回传，避免消失梯度问题
信号守恒：输入信号的幅度基本保持不变，仅被 $F (x_l)$ 微调
架构简单：单一信息流，易于实现和调试

然而，这种简单性也带来了限制。DeepSeek 团队提出的超连接（HC）试图突破这一限制，将单一信息流扩展为 $n$ 个并行流：

$$ x_{l+1} = H^{res}_l x_l + H^{post,T}_l F(H^{pre}_l x_l, W_l) $$

其中三个可学习矩阵分别控制：

$H^{res}$：残差路径中的流混合（红色交叉连接）
$H^{pre}$：进入层之前的流组合
$H^{post}$：层输出回分配到各流

理论上，HC 提供了更强的表达能力，参数增加可忽略不计，性能应有显著提升。但问题在于：这些混合矩阵未受约束。

二、信号爆炸：从 7 倍到 3000 倍的指数灾难

在 10M 参数的复现实验中，我们观察到了 HC 的早期预警信号。使用 Amax（行和列绝对和的最大值）作为信号放大度量：

层数	HC 放大倍数	mHC 放大倍数
1	1.1x	1.0x
5	1.52x	1.0x
10	2.0x	1.0x
60	304x	1.0x

在激进学习率下，HC 的信号放大达到了 7 倍后崩溃。虽然 10M 参数规模尚可承受，但这揭示了指数级放大的本质：小幅度放大在多层复合后呈指数增长。

DeepSeek 论文中的数据显示，在 27B 参数规模下，这一放大达到了3000 倍。这不是计算误差，而是未约束矩阵乘法的必然结果。

三、流形约束：Sinkhorn-Knopp 算法的工程实现

mHC（Manifold-Constrained Hyper-Connections）的核心创新是将混合矩阵约束在双随机矩阵的流形上。双随机矩阵满足：

所有元素非负
每行和为 1
每列和为 1

这意味着混合操作只能进行加权平均，不能放大信号。

3.1 Sinkhorn-Knopp 算法实现

算法实现异常简洁，仅需 20 次迭代即可收敛：

def sinkhorn_knopp(H, iterations=20):
    """将任意矩阵H转换为双随机矩阵"""
    # 1. 指数化确保正定性
    P = torch.exp(H)
    
    for _ in range(iterations):
        # 2. 行归一化
        P = P / P.sum(dim=1, keepdim=True)
        # 3. 列归一化  
        P = P / P.sum(dim=0, keepdim=True)
    
    return P

3.2 梯度传播机制

Sinkhorn 算法的关键优势在于完全可微分。梯度可以通过所有 20 次迭代反向传播：

$$ \frac{\partial \mathcal{L}}{\partial H} = \sum_{t=0}^{19} \frac{\partial \mathcal{L}}{\partial P^{(t+1)}} \cdot \frac{\partial P^{(t+1)}}{\partial P^{(t)}} \cdot \frac{\partial P^{(t)}}{\partial H} $$

其中 $P^{(t+1)} = \text {ColNorm}(\text {RowNorm}(P^{(t)}))$。虽然计算图较长，但现代自动微分框架可以高效处理。

3.3 工程优化：选择性约束

并非所有矩阵都需要完整 Sinkhorn 处理。工程实践中：

$H^{res}$ 需要完整约束：这是递归复合的矩阵，层间累积误差
$H^{pre}$ 和 $H^{post}$ 只需 sigmoid 约束：仅单层作用，影响有限

这种选择性约束将计算开销降低了 66%，同时保持了稳定性保证。

四、复现实验结果与深度扩展性

4.1 种子稳定性对比

在深度 24 层、3 个随机种子的实验中：

模型	验证损失（均值 ± 标准差）	最大 Amax（均值 ± 标准差）
HC	0.884 ± 0.033	6.77 ± 0.60
mHC	1.116 ± 0.012	1.00 ± 0.00

HC 在性能上占优（0.884 vs 1.116），但方差是 mHC 的 2.75 倍。Amax 方差更是无限大（6.77±0.60 vs 1.00±0.00）。

4.2 深度扩展性分析

在 6-24 层深度扫描中（保持～11M 参数预算）：

深度	HC 最佳损失	HC 最大 Amax	mHC 损失	mHC Amax
6	1.05	4.3x	1.32	1.0x
12	0.92	6.6x	1.18	1.0x
20	0.85	9.2x	1.10	1.0x
24	0.93	7.6x	1.16	1.0x

深度 20 层达到最佳性能，但 Amax 也达到峰值 9.2x。深度 24 层因宽度瓶颈（维度缩减至 192）性能下降。

4.3 实验配置详情

数据集：TinyShakespeare（~100 万字符，字符级）
模型架构：GPT-2 风格，~10M 参数
训练配置：5000 步，AdamW（β₁=0.9，β₂=0.95），权重衰减 0.1，余弦学习率衰减
硬件：Apple M 系列（MPS 后端）

五、工程启示：约束作为架构保证

5.1 流形约束的哲学意义

残差连接本质上是信息守恒定律在神经网络中的体现。恒等映射确保信号幅度不变，正如物理中的能量守恒。HC 打破了这一定律，允许无限制的信号放大，最终导致系统崩溃。

mHC 通过流形约束恢复守恒，但不是回到简单的恒等映射，而是找到更丰富的双随机流形。这类似于物理学中从经典守恒到规范对称性的演进。

5.2 稳定性税的必然性

在 10M 参数规模下，mHC 相比 HC 有约 26% 的性能损失（1.116 vs 0.884）。这是稳定性税—— 为获得确定性保证而付出的代价。

但在 27B 规模下，这一税负变得微不足道：

HC：可能爆炸（3000x 放大）→ 训练失败
mHC：稳定运行 → 成功训练

5.3 工程实现的关键陷阱

在复现过程中，最隐蔽的 bug 是流持久性问题。初始实现看似正确，方程与论文匹配，代码正常运行。但实际是在每层将输出投影回单流再重新扩展，完全破坏了并行架构。

检测方法：检查层间流动的张量形状。正确实现应保持 $n \times d$ 形状，其中 $n$ 为流数，$d$ 为每流维度。

六、可落地参数与监控清单

6.1 Sinkhorn 算法参数

参数	推荐值	说明
迭代次数	20	20 次迭代足以收敛，更多迭代收益递减
初始化	exp(H)	指数化确保正定性，避免零除
容差	1e-6	行 / 列和与 1 的最大允许偏差
仅约束 $H^{res}$	是	选择性约束降低 66% 计算开销

6.2 训练监控指标

Amax 增益：每 100 步记录一次，HC 应 < 10x，mHC 应≈1.0x
梯度范数：HC 可能爆炸性增长，mHC 应保持稳定
损失方差：跨种子的损失标准差，mHC 应 < 0.02
行 / 列和偏差：双随机约束的满足程度，应 < 1e-4

6.3 调试检查清单

层间张量形状保持 $n \times d$ 不变
Sinkhorn 迭代收敛（行 / 列和接近 1）
梯度通过所有 20 次迭代正常回传
仅 $H^{res}$ 使用完整 Sinkhorn，$H^{pre/post}$ 使用 sigmoid
Amax 监控告警阈值设置为 5x（HC）或 1.1x（mHC）

七、扩展方向与生产考量

7.1 混合精度训练

Sinkhorn 算法涉及指数运算，在 FP16 下可能下溢。建议：

在指数化前进行数值裁剪：H.clamp(min=-50, max=50)
使用 FP32 进行 Sinkhorn 迭代，结果转换回 FP16
或使用 log-domain Sinkhorn 变体避免指数运算

7.2 分布式训练同步

在 MoE（Mixture of Experts）架构中，不同专家可能学习到不同的混合模式。需要：

定期同步 $H^{res}$ 矩阵的统计量（均值、方差）
使用同步批归一化稳定训练
专家间梯度裁剪协调

7.3 推理优化

训练时的 Sinkhorn 迭代在推理时成为额外开销。优化策略：

缓存最终矩阵：训练收敛后冻结 $H^{res}$ 矩阵，推理时直接使用
近似双随机：使用 softmax 行 + 列归一化近似，减少迭代次数
量化压缩：将双随机矩阵量化为低精度格式

结论

DeepSeek MHC 的复现实验揭示了深度学习架构设计的一个根本原则：表达性与稳定性的权衡。超连接（HC）提供了更强的表达能力，但以训练稳定性为代价；流形约束超连接（mHC）通过双随机矩阵约束恢复稳定性，同时保留了大部分表达能力。

工程实现的关键在于理解约束的本质：不是限制网络的表达能力，而是排除病理行为。Sinkhorn-Knopp 算法提供了一种优雅的可微分方式来实现这一约束，使得梯度可以正常流动，同时保证信号幅度守恒。

对于生产系统，建议从小规模实验开始，逐步验证：

在 10M-100M 参数规模验证基本稳定性
在 1B 参数规模观察放大趋势
在 10B + 规模部署完整监控和告警机制

残差连接从 2016 年的恒等映射，到今天的流形约束超连接，体现了深度学习架构设计的演进逻辑：从简单保证到丰富约束，从经验技巧到数学原理。这一演进不仅解决了信号爆炸的具体问题，更为未来更复杂架构的设计提供了方法论启示。

资料来源：

Taylor Kolasinski. "Reproducing DeepSeek's MHC: When Residual Connections Explode" (2026)
DeepSeek 团队. "Manifold-Constrained Hyper-Connections" (arXiv:2512.24880)
实验代码与数据：10M 参数 GPT-2 架构，TinyShakespeare 数据集