极简自蒸馏SSD：代码生成中单次训练无过滤的工程实践

在代码生成模型的训练 pipeline 中，自蒸馏方法通常伴随着复杂的验证逻辑 —— 需要引入外部评判模型、计算复杂度差距、或者设定质量阈值来过滤样本。然而，一项名为 Simple Self-Distillation（SSD）的研究提出了一个令人惊讶的命题：直接使用模型原始输出作为训练标签，无需任何过滤或验证步骤，即可在代码生成任务上获得显著的性能提升。这一 “极简” 路径与现有的阈值过滤方案形成了鲜明的技术对比，为资源受限场景下的模型微调提供了可落地的工程参考。

核心方法：单次训练与无过滤的设计逻辑

SSD 的核心流程可以概括为三个步骤：首先，使用基础模型针对指定提示词生成若干原始代码解决方案；然后，在这些未经任何验证的原始样本上进行标准的监督微调；最后，在目标基准上评估微调后模型的 pass@1 指标。值得注意的是，整个 pipeline 中不涉及外部验证器、教师模型或强化学习设置，完全依赖于模型自身的生成能力与标准交叉熵损失函数。

这种设计的理论基础在于 precision-exploration tradeoff—— 即模型解码过程中的精度与探索之间的权衡。通过在特定采样设置下生成输出，SSD 能够重塑 token 分布，减少那些导致错误路径的干扰同时保留有用的探索路径。换言之，模型自身生成的 “噪声” 样本在经过高温度采样与选择性截断后，反而成为有价值的训练信号，帮助模型学会在特定问题上更精准地收敛到正确答案。

这一机制与传统的自蒸馏方法存在本质区别。传统方法通常需要先验知识来判断哪些输出值得学习，例如设定质量阈值过滤低分样本、或计算教师学生之间的复杂度差距来筛选数据。而 SSD 则完全跳过了这些判断步骤，仅通过控制采样参数来实现数据质量的隐式筛选。

关键参数：温度与截断的协同作用

在工程实践中，SSD 的效果高度依赖于两个核心参数的协同配置：训练时的采样温度与解码时的截断策略。

训练温度（Training Temperature, T_train）是最关键的超参数之一。研究表明，当 T_train 设置在 2.0 附近时，模型生成的样本多样性达到较高水平，此时的输出既包含正确的解题路径，也包含大量的错误尝试。这种 “混合信号” 经过微调后能够帮助模型学习区分有效路径与无效路径，从而在推理时更精准地选择正确答案。当温度过低时，生成的样本趋于保守，正确解的比例虽然较高但多样性不足，导致模型难以获得足够的泛化能力提升；当温度过高时，噪声比例过大，有效信号被稀释，微调收益同样下降。

解码截断（Truncation）策略则扮演着 “信号整形” 的角色。在生成训练数据时，对采样过程应用 top-k 或 top-p 截断，能够在保持一定多样性的同时过滤掉那些明显不合理的 token 序列。这一步骤与训练温度形成互补：高温提供探索空间，截断则在这个空间中进行筛选。实验结果表明，在数据生成阶段移除截断会导致性能大幅下降，这直接验证了截断策略在 SSD 中的关键地位。

至于评估温度（T_eval），研究发现其对最终性能的影响相对有限。当训练数据已经通过截断进行了有效整形后，评估时的温度调整只能在边际上影响结果，模型的核心收益来源于训练阶段对 token 分布的重新塑造。

实践建议：从实验到落地的参数映射

对于希望在自有代码生成任务上尝试 SSD 的团队，以下参数配置可作为初始基准：数据生成阶段采用 T_train 约 2.0 的温度设置，配合中等强度的 top-k（如 k=50）或 top-p（如 p=0.95）截断，每个提示词生成 1 到 5 个样本即可满足需求；微调阶段使用标准交叉熵损失，学习率可参照常规代码微调的常用范围（如 1e-5 到 5e-5），训练轮数通常在 1 到 3 个 epoch 之间即可观察到显著收益。

需要注意的是，SSD 带来的性能提升在难度较高的代码生成任务上更为明显。对于简单的模板化代码生成任务，基础模型本身的精度已经足够高，自蒸馏的边际收益有限。此外，收益的具体幅度与基础模型的质量呈正相关 —— 规模较大的模型（从 4B 到 30B 参数）通常能获得更稳定的提升，这可能与大型模型自身具备更强的 “自我纠错” 能力有关。

在实际部署中，建议建立一套基础的输出监控机制，虽然 SSD 不需要显式的质量过滤，但在某些领域或提示类型上，模型可能会生成无意义的代码片段。定期抽样检查微调后的输出分布，确保没有出现明显的模式退化，是保障方法稳定性的必要措施。

与阈值过滤方案的对比与选型建议

从技术路线上看，SSD 与阈值过滤方案代表了两种不同的设计哲学。前者强调 “少即是多”—— 通过极少的人为干预，让模型自身在学习过程中完成质量筛选；后者则依赖显式的判断逻辑，通过预设规则或外部模型来保证训练数据的质量。

选择哪种方案应基于具体场景的资源约束与性能目标。若团队具备充足的计算资源进行额外的验证步骤，或者对训练数据质量有严格的合规要求，阈值过滤方案可能更为稳妥；若追求快速迭代与极致的简洁性，且能够接受一定程度的不确定性，SSD 提供了一条更轻量的路径。值得注意的是，两种方法并非互斥 —— 可以在 SSD 的基础上引入轻量级的过滤规则，进一步提升信号质量。

综合来看，SSD 的价值在于其 “embarrassingly simple” 的特性 —— 实现极简但效果并不简单。对于希望在代码生成任务上快速获得提升的团队，从标准微调到 SSD 的迁移成本极低，仅需调整采样参数即可开启新的性能增长空间。

资料来源

论文《Embarrassingly Simple Self-Distillation Improves Code Generation》（arXiv:2604.01193）
Papers with Code 相关基准测试结果