LLM 层复制：无需训练的结构重参数化实现零样本推理跃升

在大语言模型的能力边界探索中，一个令人惊讶的发现正在改变我们对模型架构的认知：无需任何训练、仅通过复制模型内部特定的连续层块，就能显著提升模型的推理能力。最新实验表明，在 24B 参数的 Devstral 模型中复制第 12 到第 14 层，可以将 Big Bench Hard 逻辑推理任务的准确率从 0.22 提升至 0.76，整体平均提升达 8%，且没有任何任务出现性能退化。这一现象的底层机制，指向了 Transformer 架构中隐藏的「认知回路」结构。

认知回路的发现与层复制原理

Transformer 模型在预训练过程中会自发组织形成功能性的「神经回路」，这些回路由若干连续的注意力层和前馈网络层组成，共同执行完整的认知操作。关键发现在于，这些回路是不可分割的整体单元。单独复制某一层几乎不会产生任何效果，但复制正确的连续层块（通常为 3 到 4 层）则能够让模型获得第二次通过其内部推理管道的机会。

这种层复制技术本质上是一种结构重参数化方法。与传统的权重微调不同，它不改变任何权重数值，而是在模型执行推理时改变隐藏状态的流动路径。具体实现方式是：在 GGUF 格式的模型文件中物理复制指定的层块，然后在 forward pass 中让隐藏状态先完成前 N 层的计算，接着进入复制层块进行第二次处理，最后继续完成后续层的计算。对于 24B 参数的模型，额外复制 3 层大约增加 1.5 GiB 的显存占用，推理速度下降约 7.5%。

实验结果显示，不同模型将推理回路放置在不同位置：Devstral-24B（40 层）的推理回路位于第 12 到 14 层，而 Qwen2.5-32B（64 层）则位于第 7 到 9 层。更有趣的是，层复制的边界非常锐利，向任何方向偏移一层，改善效果就会消失甚至反转。

多模态认知配置：复制模式决定能力偏向

更深入的探索揭示了一个更为精妙的现象：不同的层复制模式会创造出截然不同的认知配置。研究者测试了双通复制、三通复制、交错复制和四通复制等多种模式，结果显示它们对模型不同能力的影响差异显著。例如，对 Devstral 的第 13 到 16 层进行双通复制能够同时提升数学和情商能力，但数学提升更为明显；三通复制则使情商提升更为突出；交错复制（第 13、13、14、14、15、15、16 层）则呈现出纯数学模式，数学能力大幅提升而情商略有下降；四通复制则产生情商模式，数学能力保持中性。

这意味着仅通过改变层的执行路径，就可以在完全相同的权重基础上获得不同能力的模型变体。这种能力与权重解耦的特性为模型部署和优化提供了全新的思路：同一个基础模型可以通过不同的层复制策略适配到不同的应用场景，而无需维护多个微调版本。

工程落地的关键参数与验证方法

要将这一技术应用于实际系统，需要关注以下工程化参数。首先是层块选择，通过提供的 sweep.py 工具进行两阶段搜索：第一阶段使用大块（8 层）和大跨步快速定位热区，第二阶段在热区内使用小块（3 到 5 层）和跨步 1 精确确定边界。推荐的搜索范围对于大多数模型应覆盖层索引的 25% 到 50% 区间。其次是显存预算，额外层带来的显存增长与模型参数量大致成正比，3 层复制约增加 6% 到 8% 的显存占用，推理延迟增加约 7.5%。

验证环节推荐使用 lm-evaluation-harness 框架配合标准基准测试。对于推理能力验证，建议采用 BBH 逻辑推理子任务、GSM8K 数学推理、MBPP 代码生成以及 IFEval 指令遵循等任务的组合，样本量通常取 50 到 100 以获得统计显著性。比较复制前后各任务的得分变化，逻辑推理任务出现 50% 以上的提升是成功识别到推理回路的强烈信号。

局限性与未来方向

当前技术存在两个主要局限。其一是显存开销，由于采用物理复制层的方式，显存占用随复制层数线性增长；理想方案是通过 llama.cpp 前向传递补丁使用指针共享而非实际复制来消除这一开销。其二是任务特异性，层复制带来的能力提升具有高度任务选择性，某些任务（如因果判断、指令遵循）可能完全不受影响，这对于追求通用能力的场景是约束，但对于垂直领域应用反而可能是优势。

这一发现的核心价值在于揭示了 Transformer 架构中隐藏的结构可塑性。层复制技术与传统的权重微调是正交的，两者可以叠加使用 —— 已有研究显示经过层复制修改的模型再进行微调，能够在 HuggingFace 排行榜上取得更优成绩。随着更多模型被系统性地扫描，我们有望建立不同模型架构的「认知回路地图」，为模型能力定向增强提供可预测的工程路径。

资料来源：GitHub alainnothere/llm-circuit-finder 项目，基于 David Ng 的 RYS 方法实现。