在大语言模型的能力边界探索中,一个令人惊讶的发现正在改变我们对模型架构的认知:无需任何训练、仅通过复制模型内部特定的连续层块,就能显著提升模型的推理能力。最新实验表明,在 24B 参数的 Devstral 模型中复制第 12 到第 14 层,可以将 Big Bench Hard 逻辑推理任务的准确率从 0.22 提升至 0.76,整体平均提升达 8%,且没有任何任务出现性能退化。这一现象的底层机制,指向了 Transformer 架构中隐藏的「认知回路」结构。
认知回路的发现与层复制原理
Transformer 模型在预训练过程中会自发组织形成功能性的「神经回路」,这些回路由若干连续的注意力层和前馈网络层组成,共同执行完整的认知操作。关键发现在于,这些回路是不可分割的整体单元。单独复制某一层几乎不会产生任何效果,但复制正确的连续层块(通常为 3 到 4 层)则能够让模型获得第二次通过其内部推理管道的机会。
这种层复制技术本质上是一种结构重参数化方法。与传统的权重微调不同,它不改变任何权重数值,而是在模型执行推理时改变隐藏状态的流动路径。具体实现方式是:在 GGUF 格式的模型文件中物理复制指定的层块,然后在 forward pass 中让隐藏状态先完成前 N 层的计算,接着进入复制层块进行第二次处理,最后继续完成后续层的计算。对于 24B 参数的模型,额外复制 3 层大约增加 1.5 GiB 的显存占用,推理速度下降约 7.5%。
实验结果显示,不同模型将推理回路放置在不同位置:Devstral-24B(40 层)的推理回路位于第 12 到 14 层,而 Qwen2.5-32B(64 层)则位于第 7 到 9 层。更有趣的是,层复制的边界非常锐利,向任何方向偏移一层,改善效果就会消失甚至反转。
多模态认知配置:复制模式决定能力偏向
更深入的探索揭示了一个更为精妙的现象:不同的层复制模式会创造出截然不同的认知配置。研究者测试了双通复制、三通复制、交错复制和四通复制等多种模式,结果显示它们对模型不同能力的影响差异显著。例如,对 Devstral 的第 13 到 16 层进行双通复制能够同时提升数学和情商能力,但数学提升更为明显;三通复制则使情商提升更为突出;交错复制(第 13、13、14、14、15、15、16 层)则呈现出纯数学模式,数学能力大幅提升而情商略有下降;四通复制则产生情商模式,数学能力保持中性。
这意味着仅通过改变层的执行路径,就可以在完全相同的权重基础上获得不同能力的模型变体。这种能力与权重解耦的特性为模型部署和优化提供了全新的思路:同一个基础模型可以通过不同的层复制策略适配到不同的应用场景,而无需维护多个微调版本。
工程落地的关键参数与验证方法
要将这一技术应用于实际系统,需要关注以下工程化参数。首先是层块选择,通过提供的 sweep.py 工具进行两阶段搜索:第一阶段使用大块(8 层)和大跨步快速定位热区,第二阶段在热区内使用小块(3 到 5 层)和跨步 1 精确确定边界。推荐的搜索范围对于大多数模型应覆盖层索引的 25% 到 50% 区间。其次是显存预算,额外层带来的显存增长与模型参数量大致成正比,3 层复制约增加 6% 到 8% 的显存占用,推理延迟增加约 7.5%。
验证环节推荐使用 lm-evaluation-harness 框架配合标准基准测试。对于推理能力验证,建议采用 BBH 逻辑推理子任务、GSM8K 数学推理、MBPP 代码生成以及 IFEval 指令遵循等任务的组合,样本量通常取 50 到 100 以获得统计显著性。比较复制前后各任务的得分变化,逻辑推理任务出现 50% 以上的提升是成功识别到推理回路的强烈信号。
局限性与未来方向
当前技术存在两个主要局限。其一是显存开销,由于采用物理复制层的方式,显存占用随复制层数线性增长;理想方案是通过 llama.cpp 前向传递补丁使用指针共享而非实际复制来消除这一开销。其二是任务特异性,层复制带来的能力提升具有高度任务选择性,某些任务(如因果判断、指令遵循)可能完全不受影响,这对于追求通用能力的场景是约束,但对于垂直领域应用反而可能是优势。
这一发现的核心价值在于揭示了 Transformer 架构中隐藏的结构可塑性。层复制技术与传统的权重微调是正交的,两者可以叠加使用 —— 已有研究显示经过层复制修改的模型再进行微调,能够在 HuggingFace 排行榜上取得更优成绩。随着更多模型被系统性地扫描,我们有望建立不同模型架构的「认知回路地图」,为模型能力定向增强提供可预测的工程路径。
资料来源:GitHub alainnothere/llm-circuit-finder 项目,基于 David Ng 的 RYS 方法实现。