LLVM长分支处理与编译器后端优化

在构建大型二进制文件时，开发者偶尔会遇到链接器报错「relocation out of range」，这类错误往往指向一个隐藏在工具链深处的技术问题：长分支（Long Branch）处理。当目标地址超出分支指令的编码范围时，编译器、汇编器与链接器必须协同工作，在不改变程序语义的前提下，将远距离跳转拆解为可达的多跳路径。这一机制直接决定了大型代码库的编译成功率与运行时性能，是编译器后端工程中不可忽视的关键环节。

分支范围限制的架构根源

现代处理器架构普遍采用 PC 相对寻址（PC-relative addressing）来实现分支指令，这种设计简化了位置无关代码（PIC）的实现，但也带来了范围限制。以 AArch64 架构为例，无条件分支指令（如 B、BL）的直接跳转范围为 ±128MiB，而条件分支（如 B.cond）受限于更短的 ±1MiB 范围。在一个典型的大型固件镜像中，如果函数 A 位于地址 0x10000 而它调用的函数 B 位于地址 0x8010000，两者之间的距离超过 128MiB，简单的分支指令将无法编码。类似地，RISC-V 的条件分支范围仅为 ±4KiB，无条件分支约为 ±1MiB；x86-64 架构虽然拥有 ±2GiB 的较宽范围，但在极端的代码模型下仍可能超出限制。

这种架构差异并非设计缺陷，而是指令编码空间与硬件实现复杂度之间的权衡结果。较短的分支编码意味着更高的指令密度和更低的取指带宽要求，但代价是工具链必须承担额外的处理负担。因此，理解长分支问题的第一步是认识到：这不是某个特定编译器或链接器的缺陷，而是 RISC 架构设计中普遍存在的约束条件。

LLVM BranchRelaxation Pass 的实现机制

LLVM 编译器通过 BranchRelaxation Pass 处理函数内部的长分支问题，这一工作流程可分为三个核心步骤：函数扫描、分支松弛迭代与块偏移调整。在 scanFunction 阶段，Pass 会遍历机器函数中的所有基本块（MachineBasicBlock），计算每个块的起始偏移量并建立 BlockInfo 数组，用于后续的偏移查询与范围判断。BlockInfo 结构体记录了每个基本块的 Offset（距离函数起始地址的字节偏移）和 Size（块大小），这为判断分支是否超出范围提供了精确的几何信息。

当 relaxBranchInstructions 开始运行时，它会逐个检查基本块中的分支指令。对于条件分支，Pass 首先调用 isBlockInRange 方法，计算源指令地址与目标基本块起始地址之间的差值，并通过 TargetInstrInfo 的 isBranchOffsetInRange 方法判断是否超出当前指令的操作码范围。若检测到超出范围的分支，Pass 会根据具体情况采取不同的修复策略：对于可逆条件分支，优先反转条件并将目标改为相邻块，从而将远距离跳转转化为近距离跳转；对于不可逆条件分支，则创建新的中转基本块，在其中插入无条件跳转指令，逐步逼近最终目标。

fixupUnconditionalBranch 函数的处理逻辑更为复杂，因为它涉及间接跳转（indirect branch）的插入。当原始无条件分支的目标超出范围时，Pass 会创建一个 BranchBB 作为跳转桩，并在函数末尾创建 RestoreBB 用于恢复控制流。对于支持寄存器间接跳转的架构（如 AArch64 的 BR 寄存器），insertIndirectBranch 方法会在 BranchBB 中生成类似「ADRP + ADD + BR」的操作序列，先将目标地址加载到寄存器，再通过寄存器间接跳转完成远距离转移。这一过程中，RegScavenger 用于管理临时寄存器的分配，确保跳转桩不会破坏正常的寄存器使用约定。

三层协作的工具链处理模型

长分支问题的处理并非单一阶段能够完成，而是需要编译器、汇编器与链接器的三层协作。在编译器层面，BranchRelaxation Pass 处理函数内部的分支松弛，将超出范围的条件分支转换为多个短距离分支的组合，或插入跳转桩。这一阶段的输入是 LLVM IR 经过指令选择后生成的机器指令序列，输出是经过松弛处理的机器函数。编译器层的处理范围受限于单函数内部，因为此时目标地址的最终布局尚未确定，跨函数的优化需要后续阶段的介入。

汇编器（Assembler）在汇编到可重定位文件（relocatable object）的阶段处理节（section）内部的分支问题。在解析汇编代码时，汇编器会遇到跨越已知距离的分支指令，如果距离在当前指令编码范围内，则直接编码；否则，它会使用长跳转指令或插入填充指令。LLVM 集成汇编器通过 span-dependent 指令机制处理这类场景：当片段（fragment）布局完成后，汇编器会根据实际的偏移量决定是否需要扩展指令编码。对于 RISC-V 这类支持链接时放松（linker relaxation）的架构，汇编器会生成压缩或扩展的占位指令，将最终的调整决策留给链接器。

链接器（Linker）处理跨节（cross-section）和跨目标文件（cross-object）的分支问题，这是长分支处理链条的最后一环。在 ELF 链接过程中，ld.lld 等链接器会根据最终的布局信息判断跨节分支是否超出范围。对于 AArch64 架构，链接器会插入 thunk（跳板代码），这些小段代码位于分支可达的范围内，负责将控制流转到超出直接范围的最终目标。LLD 链接器的 AArch64 后端实现了两种 thunk：BTI（Branch Target Identification）thunk 和 non-BTI thunk，前者包含目标所需的 BTI 指令，后者仅执行简单的跳转。这一设计确保了在链接时发现的远距离分支能够被透明地修复，而无需重新编译源代码。

各架构策略对比与工程权衡

不同架构根据其指令集特性和生态需求，发展出了差异化的长分支处理策略。AArch64 主要依赖链接器 thunk 机制，编译器层的 BranchRelaxation 仅处理条件分支的反转与基本块拆分。AArch64 的 Conditional Branch Relaxation 可以通过 - menable-conditional-branch-relaxation 选项控制开关，LLVM 默认启用这一功能。当链接器发现无法直接达成的分支时，它会在合适的节中插入 thunk，这些 thunk 的位置由链接器的布局算法决定，通常位于源节与目标节之间的空闲区域。

RISC-V 采用了独特的链接时放松模型，允许在链接阶段对分支指令进行压缩或扩展。RISC-V 的分支指令存在 16 位（compressed）和 32 位两种编码，当链接器确定源与目标之间的距离在压缩指令可达范围内时，它会将原始的 32 位分支替换为 16 位版本；反之则扩展为更长的序列。这种机制显著减小了代码体积，但要求链接器在放松决策前准确计算所有分支的距离。LoongArch 架构在 2023 年后也获得了类似的支持，其链接器 relaxation 实现基于 LLVM 的 MC 层。

x86-64 架构由于其历史兼容性和复杂的代码模型设计，长分支处理策略有所不同。x86 的相对近跳转（near jump）使用 32 位偏移量，理论上可达 ±2GiB，足以覆盖大多数单模块应用。然而在某些极端场景下（如内核模块与用户态代码之间的跳转），开发者可能需要使用远跳转（far jump）或通过中间跳转表中转。GCC 和 Clang 提供 - mcmodel 选项控制代码模型：small 模型假设所有符号在 ±2GiB 范围内，使用短跳转编码；medium 和 large 模型则允许更大的地址空间，但可能产生额外的间接跳转开销。

工程实践中的可配置参数与监控

在实际工程中，长分支问题的诊断与优化可以从多个维度入手。首先是链接器的诊断输出：LLD 在启用 - v 或 --verbose 选项时会显示 thunk 的插入位置和数量，帮助开发者定位哪些跨节调用触发了长分支处理。对于 AArch64 架构，-z force-bti 选项可强制所有外部跳转通过 BTI 保护，这虽然增加了安全性，但可能影响 thunk 的布局灵活性。

编译器层的控制选项同样重要。LLVM 的 - aarch64-enable-branch-relax 标志控制条件分支松弛的启用状态，开发者可以通过 - mllvm -aarch64-enable-branch-relax=false 禁用这一优化，以减少基本块数量为代价换取更可预测的代码布局。RISC-V 的 - mrelax 选项控制链接时放松的启用，启用后链接器会自动压缩可压缩的分支，但可能增加链接时间。对于性能敏感的场景，开发者可以在发布构建中启用 relax，在调试构建中禁用以加快链接速度。

代码布局的优化是减少长分支的另一种途径。通过链接器的 --section-ordering 选项，开发者可以将频繁调用的函数放在一起，减少跨大距离分支的概率。Gold 链接器的 --inline-functions-for-fdwholesymbols 选项可以在内联决策中考虑节距离，将可能被内联的函数放置在调用者的同一节内。LLD 的 --sort-section 选项支持按名称或大小排序节，但这对长分支的直接影响有限。

监控层面，开发者可以在构建脚本中解析链接器的统计输出，追踪 thunk 数量和分支松弛次数的变化趋势。如果某个模块的 thunk 数量异常增加，可能暗示代码布局存在问题或函数规模过大。将构建系统与静态分析工具集成，在链接前检测超出预期范围的函数间调用，可以提前预警潜在的长分支问题。例如，通过 LLVM 的 - extract-scc 分析模块内的强连通分量，将大型 SCC 拆分为多个可独立编译的单元，可以从根本上降低跨模块长分支的发生概率。

参考资料

MaskRay. (2026-01-25). Handling long branches. https://maskray.me/blog/2026-01-25-handling-long-branches
LLVM Project. BranchRelaxation.cpp source. https://llvm.org/doxygen/BranchRelaxation_8cpp_source.html