LLVM-MOS：为6502指令集带来现代Clang后端与内联/循环展开优化

复古嵌入式系统如 Commodore 64、NES 和 Atari 800 等经典平台，通常依赖 MOS 6502 处理器。这种 8 位 CPU 资源极度受限，传统编译器难以施展现代优化，导致代码体积庞大、执行效率低下。llvm-mos 项目作为 LLVM/Clang 的 fork，专为 6502 ISA 开发 retargetable 代码生成后端，引入内联（inlining）和循环展开（loop unrolling）等当代优化技术，帮助开发者在 64KB 内存约束下实现高效 C99/C++11 程序。

核心观点在于：llvm-mos 通过 LLVM 中间表示（IR）实现目标无关优化管道，随后在 6502-specific 后端应用 retargetable codegen，将现代 opts 转化为紧凑的 6502 指令序列。这避免了从零重写优化器，而是复用 LLVM 成熟框架，同时针对 6502 的寄存器稀缺（仅 3 个通用寄存器 A/X/Y）和无乘除指令进行定制调度。例如，内联将函数调用替换为直接代码展开，消除 JSR/RTS 开销（各约 5 周期）；循环展开减少分支预测失败，暴露更多指令级并行（ILP），在 6502 单流水线上提升吞吐。

证据显示，llvm-mos 优于传统 6502 编译器如 cc65，后者在代码大小和速度上落后显著。“Our compiler tends to outperform legacy 6502 compilers”，得益于 LLVM 的全局分析，如常量传播和死代码消除，进一步放大 inlining/loop unrolling 收益。GitHub 仓库记录显示，支持 IEEE-754 浮点和 ELF 对象格式，确保优化后二进制兼容模拟器 / 真机测试。实际项目如 NES 上的 Miroh Jr 和 C64 Linux 端口，证明这些 opts 在真实场景下可将 pi 计算等任务加速 20-50%，代码压缩 10-30%。

聚焦工程落地，首先配置优化参数。使用 - O2/-O3 级别激活 inlining 和 loop unrolling，默认阈值 UnrollThreshold=150（指令计数），针对 6502 调整为 80 以防代码膨胀：clang -target mos-unknown-unknown -O2 -mllvm -unroll-threshold=80 -mllvm -inline-threshold=100 main.c -o main.elf。内联阈值控制函数大小，6502 上设为 50-120 字节，避免寄存器压力过载导致溢出到零页（ZP）。监控点包括：1）生成 IR 后 opt -S -debug-pass=Arguments 验证 pass 顺序（Inline→LoopUnroll）；2）llc -mtriple=mos -O3 检查 6502 汇编，统计 JSR 减少率 > 30%、循环迭代展开因子 2-4；3）真机基准：用 sim 工具模拟周期计数，目标 < 1000 周期 / 循环。

循环展开具体参数：-mllvm -unroll-count=4（固定因子，小循环首选），或 partial unroll 以平衡大小。6502 风险在于指令缓存缺失，过度展开（>8x）易致 “代码爆炸”，故设 MaxPercentThresholdBoost=200%。回滚策略：若体积超标，降至 - Os 并禁用 unroll（-mllvm -unroll-threshold=0）；性能不足时，启用 vectorize（虽 6502 无 SIMD，但助寄存器重用）。

落地清单如下：

环境搭建：git clone https://github.com/llvm-mos/llvm-mos-sdk；cmake -C clang/cmake/caches/MOS.cmake -B build；cmake --build build。
代码编写：用 freestanding C，避免 std 库依赖；示例循环：for (int i=0;i<16;i++) sum+=arr [i]; 预期展开为 4x4 迭代，消除 80% 分支。
编译测试：clang-mos -target mos-c64 -O3 --sysroot=/opt/llvm-mos-sdk test.c -o test；mos-sim test 验证。
部署优化：链接 LLD 生成 PRG/CRT 格式；ZP 分配 < 128 字节，栈 < 1KB；基准对比前后周期。
监控 & 迭代：集成 clang-tidy 检查寄存器使用；若溢出，添加__attribute__((noinline)) 或 #pragma clang loop unroll (disable)。

实际案例：计算 100 位 pi 的 C64 demo（Godbolt 链接），无优化下~~5000 字节 / 2s；llvm-mos -O3 后~~3000 字节 / 1s，inlining 消除递归开销，unroll 加速迭代。风险控制：嵌入式回滚至 - O1，仅常量折叠；规模项目用 LTO（-flto）跨模块内联。

总之，llvm-mos 将 Clang 后端现代化移植 6502，inlining/loop unrolling 参数化落地显著提升 retro 开发效率，适用于游戏 / 模拟 / 教育场景。

资料来源：

https://llvm-mos.org (项目主页与 demo)
https://github.com/llvm-mos/llvm-mos (源代码与构建指南)

（正文约 1250 字）