自蒸馏持续学习训练管道：冻结教师模型提供稳定软标签的工程实现路径

在持续学习场景中，模型需要不断学习新任务，同时保持对旧任务的识别能力。这种需求在实际部署中极为常见：智能设备需要持续接收新的图像数据，企业模型需要适应新的业务类别。然而，传统神经网络在连续学习新任务时会出现灾难性遗忘 —— 新知识的引入会显著削弱旧任务的性能。自蒸馏机制为这一问题的工程化解决提供了可行路径：通过冻结早期教师模型，为后续训练提供稳定的软标签，使学生在学习新任务时不至于完全偏离教师模型已建立的知识结构。

灾难性遗忘的核心矛盾与自蒸馏解决思路

持续学习的本质矛盾在于稳定性与可塑性的权衡。模型需要足够的可塑性来吸收新知识，同时又不能过度破坏已经学会的表示。在传统在线类增量学习设置中，模型逐个任务学习，数据流不断涌现新类别，旧类别的样本在后续训练中不再出现。这种设置下，模型倾向于覆盖处理旧类别样本时依赖的参数，导致旧类别性能急剧下降。

Replay 方法通过维护一个固定容量的记忆缓冲区来解决这一问题：在学习新任务时，从数据流中采样一部分样本存入缓冲区，同时从缓冲区中回放旧样本参与训练。然而，这种方法存在两个根本性问题。首先，缓冲区容量有限，旧任务样本数量随任务增加而递减，导致模型反复学习同样的样本而产生过拟合。其次，由于对比学习等方法需要足够的旧图像支撑，记忆容量不足时对比学习的有效性也无法充分发挥。

自蒸馏机制的核心思路是利用神经网络浅层特征更具泛化性的特点，将浅层的知识蒸馏到深层，从而缓解因有限记忆导致的过拟合问题。具体实现上，模型自身充当教师，使用浅层的归一化特征相似度分布作为软目标，指导深层特征的相似度分布向其靠拢。这种蒸馏不依赖外部教师模型或额外的标签数据，而是利用同一网络内部不同层级之间的知识迁移。

冻结教师模型的双层蒸馏架构

工程实现中，冻结教师模型的自蒸馏架构需要解决三个关键问题：教师模型的冻结策略、软标签的生成方式、以及蒸馏损失与主损失的有效组合。

教师模型的冻结策略直接决定蒸馏效果的稳定性。一种常见做法是在学习第一个任务后保存模型快照作为初始教师，在后续所有任务中保持该教师模型参数不变。这种策略的优势在于教师模型完全不受后续训练影响，提供的软标签具有最强的稳定性；劣势在于教师模型无法感知后续任务引入的新知识，可能导致学生模型过度受限。另一种做法是采用指数移动平均更新教师模型参数，教师以较小的动量因子逐步吸收学生模型的最新知识，这种策略允许教师模型缓慢适应新任务，但需要谨慎调优动量参数以避免教师模型变得过于接近学生模型而失去约束效果。

软标签的生成依赖于余弦相似度向量。对于批量样本，计算每个样本归一化特征向量与其他样本的相似度分布，以此作为软目标。设批大小为 2N（包含原始样本与增强样本），对于第 i 个样本的相似度向量 p (z_i)，其第 j 个元素定义为样本 i 与样本 p 的归一化特征余弦相似度经过温度缩放后的 softmax 值。这一相似度分布编码了样本间的相对关系，比单一硬标签蕴含更丰富的结构信息。

蒸馏损失采用 KL 散度形式，使学生模型的相似度分布 q (f_i) 与教师模型提供的 p (z_i) 之间的交叉熵最小化。这一损失项与标准的监督对比损失、交叉熵损失共同构成完整的训练目标。总体损失函数为三项的加权求和：L = L_sup + L_ce + L_dist^self，其中 L_sup 为监督对比损失，L_ce 为分类交叉熵损失，L_dist^self 为自蒸馏损失。三项损失的权重分配决定模型在泛化、旧类别保持与新类别学习之间的平衡。

优先级记忆更新机制的具体实现

除了蒸馏损失设计，记忆缓冲区的更新策略对最终性能同样至关重要。传统方法采用均匀采样或蓄水池采样保存历史样本，但这类策略无法有效处理类别不平衡场景 —— 容易分类的样本被反复保存，而难以正确分类的样本则被忽略，导致模型在困难类别上的性能退化。

优先级记忆更新机制的核心理念是优先保存当前模型预测置信度最低的样本。具体做法是在每个任务结束时，遍历该任务的样本，计算分类器对该样本真实类别的预测概率，选择概率最低的 N 个样本替换缓冲区中的对应样本。实验中 N 通常设为 5，但可根据类别数量和数据集难度适当调整。

这一策略的理论依据在于：低置信度样本意味着模型对该类别的决策边界尚不清晰，保存并回放这些样本能够更有效地训练模型在困难类别上的判别能力。同时，这种策略天然地平衡了类别间的训练频率 —— 原本难以分类的样本获得更多训练机会，从而逐步提升模型在各类别上的整体表现。

实施优先级更新时需要注意几个工程要点。首先，置信度评估应在当前批次训练完成后进行，以获得模型最新参数下的预测结果。其次，替换操作应考虑类别公平性，确保每个类别在缓冲区中都有一定的最低样本数量。第三，对于多分类任务，需要确保优先保存那些在所有非真实类别中概率最高的样本，而非简单选择概率最低的单一类别。

超参数配置与工程调优建议

基于实验验证，以下超参数配置可作为工程实践的起点。温度参数 κ 用于控制相似度分布的平滑程度，通常取值范围为 0.07 到 0.1 之间，较大的温度值产生更平滑的分布，有利于知识传递但可能降低对细节的捕捉能力。监督对比损失中的温度参数 τ 通常设置为 0.1 到 0.2 之间，这与标准对比学习方法中的推荐值一致。

记忆缓冲区大小的选择需权衡存储成本与性能收益。实验表明，在缓冲区容量极小（M=100）的场景下，自蒸馏带来的改进最为显著，可达 5.9 个百分点；随着缓冲区增大，绝对收益有所下降但仍然稳定为正。对于 CIFAR10 类小型数据集，M=100 通常足够；对于 CIFAR100 或 MiniImageNet 类复杂数据集，建议 M 至少设置为 500。

学习率配置方面，实验采用 SGD 优化器，学习率设为 0.01，权重衰减设为 1e-4。对于使用 Adam 或 AdamW 优化器的场景，学习率可适当降低至 1e-4 到 1e-3 范围内。批次大小建议设置为 110（10 个流数据样本 + 100 个缓冲区样本），以确保足够的对比学习正负样本对。

蒸馏损失权重 α 的配置需要根据任务特性调整。对于类别数量多、任务间差异大的场景，建议使用较大的蒸馏权重（如 0.3 到 0.5），以加强对旧知识的保持；对于类别数量少、任务相关性高的场景，可适当降低蒸馏权重以允许模型更快适应新知识。

推理阶段的最近类均值分类器

推理阶段采用最近类均值分类器（NCM Classifier）进行预测。这种分类器首先计算每个类别的原型表示，即缓冲区中该类别所有样本特征向量的均值；推理时计算测试样本特征与各类别原型之间的距离，选择距离最近的类别作为预测结果。NCM 分类器的优势在于推理时不依赖神经网络最后一层的 softmax 输出，而是基于可学习的原型表示，对类别不平衡场景更加鲁棒。

原型表示在每个推理步骤中需要重新计算，确保使用缓冲区当前状态下的最新样本。这一计算成本可忽略不计，因为原型均值仅需在少量类别上计算一次。值得注意的是，缓冲区内容的变化会导致原型表示发生变化，因此连续学习多个任务后，NCM 分类器会逐步融合历史样本与当前样本的信息，形成更具代表性的类别原型。

持续学习监控指标与回滚策略

工程实践中，持续学习训练管道需要建立完善的监控体系。平均准确率是衡量整体性能的核心指标，它记录每个任务训练完成后在所有已见任务上的平均分类准确率。通过比较训练过程中各任务的准确率变化，可以量化灾难性遗忘的程度。此外，需要监控每个任务的独立准确率，识别最容易发生遗忘的任务类别，针对性地调整缓冲区策略或蒸馏权重。

正向迁移率是另一个重要指标，衡量模型在新任务上的表现是否超越了仅在该任务上训练的基线模型。自蒸馏机制的一个理论优势在于，通过软标签传递旧任务的结构知识，可能帮助模型更好地理解新任务。正向迁移率越高，说明知识蒸馏的效益越显著。

回滚策略的设计应基于监控指标设置触发条件。当任意任务的准确率相比上一轮训练下降超过预设阈值（如 5 个百分点）时，应触发回滚操作。回滚时加载最近一次检查点，重新调整蒸馏损失权重后继续训练。对于使用 EMA 教师模型的场景，可通过调整 EMA 动量因子或重新初始化教师模型来缓解过度遗忘问题。

训练管道的完整工作流程

完整的自蒸馏持续学习训练管道包含以下关键步骤。第一步是初始化：加载预训练模型或从头训练第一个任务，保存训练完成后的模型快照作为初始教师模型，同时初始化空白的记忆缓冲区。第二步是任务学习：对于每个新任务，从数据流中读取样本，采样部分样本存入缓冲区，同时应用优先级更新策略替换置信度低的样本；使用当前样本与缓冲区回放样本组成批次，计算三项损失并更新模型参数。第三步是教师模型维护（可选）：如果采用 EMA 更新策略，以较小动量因子（如 0.999）更新教师模型参数；如果采用冻结策略，则教师模型保持不变。第四步是性能评估：在每个任务训练完成后，在所有已见任务的测试集上评估平均准确率，记录各项监控指标。第五步是持续迭代：重复步骤二至步骤四直到所有任务学习完成。

整个训练管道应支持检查点保存与恢复，以便在训练异常或指标恶化时回滚到稳定状态。检查点应包含模型参数、教师模型参数、缓冲区内容、以及优化器状态，确保训练可以在任意阶段无缝恢复。

技术选型的权衡考量

在实际工程选型中，需要根据具体场景权衡不同技术方案。采用冻结教师模型的优势在于实现简单、教师信号稳定，劣势在于无法感知新任务知识；EMA 教师模型则提供了一定的灵活性，但增加了调优复杂度。对于计算资源受限的边缘设备场景，冻结教师模型是更合适的选择，因为教师模型无需在每个训练步骤中计算梯度；对于服务器端训练且对性能要求较高的场景，EMA 教师模型可能带来更好的效果。

缓冲区大小的选择需要在存储成本与性能收益之间取得平衡。自蒸馏机制在小缓冲区场景下的收益更为显著，因此如果存储资源紧张，优先保证自蒸馏机制而减少缓冲区容量可能是更优的策略。实验数据表明，即使将缓冲区压缩到极小规模（M=100），自蒸馏仍能带来近 6 个百分点的性能提升，这在资源受限场景下具有重要的工程价值。

类别增量学习的设置也影响技术选型。如果任务边界清晰且任务 ID 可用于推理，可以采用任务感知分类器分别处理不同任务；如果任务边界模糊或任务 ID 不可用，则需要使用统一分类器（如 NCM）处理所有类别。不同设置下，软标签的生成与使用策略也需要相应调整。

资料来源

Ono, H. 等. "Reducing Catastrophic Forgetting in Online Class Incremental Learning Using Self-Distillation." arXiv:2409.11329, 2024.

mlops

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。