老旧Xeon跑LLM：缓存层次优化与NUMA感知调度实战

老旧 Xeon 的缓存架构瓶颈

十年前的 Xeon 处理器（如 Sandy Bridge-EP、Ivy Bridge-EP、Haswell-EP 系列）在运行现代 LLM 推理时面临的核心挑战并非单纯的算力不足，而是缓存层次结构与内存带宽的错配。以双路 Xeon E5-2680 v2 为例，单核配备 32KB L1、256KB L2，但共享 L3 仅 25MB，面对动辄数十 GB 的模型权重，缓存命中率急剧下降。

更关键的是，这些处理器采用 ** 环形总线（Ring Bus）** 连接核心与 LLC（Last Level Cache），跨核心访问 L3 的延迟随环上距离增加而上升。在 LLM 的矩阵乘法运算中，若线程随意调度，权重数据可能在不同核心间 "ping-pong"，导致 L3 miss 率飙升。

NUMA 拓扑的隐藏代价

双路乃至四路 Xeon 服务器的 NUMA（Non-Uniform Memory Access）架构对 LLM 推理的影响常被低估。每颗 CPU 拥有独立的内存控制器，本地内存访问延迟约 60-80ns，跨 NUMA 节点访问则飙升至 120-150ns。

在默认的 "首次触摸（First Touch）" 内存分配策略下，若推理进程在 CPU0 上启动，但 llama.cpp 等框架的线程池动态扩散至 CPU1，则大量权重数据被迫跨 NUMA 访问。实测显示，跨 NUMA 推理的吞吐量可能下降 30-50%。

三级缓存优化策略

1. L1/L2：向量化与指令级并行

老旧 Xeon 支持 AVX/AVX2 指令集，但256-bit YMM 寄存器的利用需要数据对齐。建议将模型权重按 32 字节边界对齐，并使用posix_memalign分配激活值缓冲区：

void* aligned_buffer;
posix_memalign(&aligned_buffer, 32, tensor_size);

同时，启用编译器的-march=sandybridge或-march=haswell标志，确保编译器生成最优的向量化代码。

2. L3：分块（Tiling）与数据复用

针对 25-45MB 的共享 L3，建议将矩阵乘法的分块大小（tile size）设定为L3 容量的 1/4 至 1/3，即 6-12MB。对于 Q4_K_M 量化的 7B 模型，单层权重约 4-6GB，需在计算时逐块加载至 L3，而非一次性读取。

llama.cpp 的-tb参数可控制线程分块策略，建议设置为物理核心数的一半，确保每块计算能充分利用 L3 驻留数据。

3. 预取指令的精准投放

使用_mm_prefetch指令在计算当前块时预取下一个块，预取距离建议为L3 延迟的 2-3 倍（约 200-300 个时钟周期）。过度预取会污染 L3，反而降低命中率。

NUMA 感知调度实战参数

线程绑定（CPU Affinity）

使用numactl将推理进程绑定至单一 NUMA 节点，避免跨节点内存访问：

# 绑定至NUMA节点0，仅使用节点0的内存
numactl --cpunodebind=0 --membind=0 ./llama-server -m model.gguf

# 或使用taskset绑定特定核心（假设每路10核）
taskset -c 0-9 ./llama-server -m model.gguf

对于双路系统运行多个并发请求的场景，建议每路独立运行一个推理实例，而非单实例跨路运行。

内存分配策略

设置MPOL_PREFERRED策略，优先从本地节点分配：

#include <numa.h>
numa_set_preferred(numa_node_of_cpu(sched_getcpu()));

或使用numactl --preferred=0在启动时指定。

透明大页（THP）的权衡

老旧 Xeon 的 TLB（Translation Lookaside Buffer）条目有限（L1 TLB 64-128 项）。启用透明大页（2MB 页面）可减少 TLB miss，但会增加内存碎片。建议：

# 启用THP
echo always > /sys/kernel/mm/transparent_hugepage/enabled

# 或在应用层使用hugetlbfs
mount -t hugetlbfs nodev /mnt/huge

对于量化后的模型权重（已压缩），THP 的收益有限，可保持默认的 4KB 页面。

可落地的监控与调优清单

诊断工具

# 查看NUMA拓扑
numactl --hardware

# 监控缓存命中率（需perf）
perf stat -e cache-misses,cache-references,L1-dcache-load-misses ./llama-server

# 查看跨NUMA内存访问
numastat -m

关键指标阈值

指标	健康阈值	优化方向
L3 Miss Ratio	< 15%	调整分块大小，优化数据布局
跨 NUMA 访问占比	< 5%	严格线程绑定，使用本地内存分配
TLB Miss Rate	< 1%	启用大页，减少内存碎片
CPU 利用率	85-95%	避免过度订阅，预留调度余量

llama.cpp 专用参数

./llama-server \
  -m model.gguf \
  -t 10 \              # 线程数=物理核心数
  -tb 10 \             # 批次线程数
  --mlock \            # 锁定内存，避免swap
  --numa distribute \   # 或尝试--numa isolate
  -c 4096              # 上下文长度

--numa distribute将权重均匀分布至所有 NUMA 节点，适合单实例多路场景；--numa isolate则严格隔离，适合多实例部署。

局限性与替代方案

老旧 Xeon 的AVX-512 缺失意味着无法使用最新的 FP16/BF16 加速指令，量化（INT8/INT4）几乎是必经之路。若 L3 容量实在捉襟见肘（如单路 15MB），可考虑 ** 层间卸载（layer offloading）** 策略，将部分层保留在内存而非缓存中，以换取更大的模型支持。

对于极端老旧的平台（如 Westmere 架构），建议转向纯 CPU 优化的推理框架如llama.cpp 的 Q4_0 量化或CTranslate2，并降低并发数以换取单请求延迟。

资料来源

Intel Xeon E5-2600 v2 Product Family Datasheet, Intel Corporation
"Optimizing Application Performance on Intel Xeon Processors", Intel Developer Zone
llama.cpp GitHub Repository, NUMA-related implementation and benchmarks
Linux NUMA Documentation, kernel.org

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。