XZ Utils 多线程 LZMA2 块压缩：滤波器链、线程调度与 madvise 集成

在现代数据归档场景中，单线程压缩往往成为瓶颈，尤其是处理 TB 级文件时。XZ Utils 通过多线程 LZMA2 块压缩机制，利用块级并行显著提升吞吐量，同时保持高压缩比。这种方法将输入流拆分成独立块，每个块在专用线程中经滤波器链处理后独立编码，避免了复杂的状态同步开销，实现近线性加速。

XZ Utils 的多线程模式由 -T 参数控制，例如 -T0 自动使用硬件线程数上限，默认块大小为 max(3 * dict_size, 1 MiB)。输入流被切分成多个块，每个块独立应用相同的滤波器链，如 LZMA2 主滤波器结合 BCJ（Branch/Call/Jump）预滤波器，用于优化可执行文件压缩。“在多线程模式下，xz 将输入拆分成独立块，每个块在工作线程中使用 LZMA2 压缩。” 每个线程维护独立的 LZMA2 状态，包括字典和缓冲区，内存消耗约为线程数乘以（几倍块大小 + 字典大小）。

滤波器链是 XZ 格式的核心特性，支持最多 4 个滤波器串联。在多线程压缩中，整个链路在每个块内独立执行，确保块间无依赖。例如，针对二进制文件，可配置 --lzma2=preset=9,dict=64MiB --bcj=x86，先 BCJ 滤波再 LZMA2 压缩，提升比率 5-10%。配置命令：xz -T8 --block-size=128MiB --filters=lzma2=dict=32MiB,lc=3,lp=0,pb=2;bcj=x86 input.tar，这将 8 线程并行处理 128MiB 块。单线程模式下压缩比略优，但多线程块模式支持未来并行解压，因为块头记录了块大小元数据。

线程调度采用简单工作窃取模型：主线程将块推入输入队列，工作线程从队列拉取块压缩后推入输出队列。无自定义亲和性绑定或优先级调整，完全依赖内核调度器（如 CFS）。在 NUMA 系统上，这可能导致跨节点内存访问，但实际测试显示，对于顺序 I/O 负载，内核默认调度已足够高效。潜在瓶颈在于队列锁竞争，高线程数（>32）时可观察到 10-20% 效率损失，此时建议 --threads=CPU核心数/2。

内存管理是多线程 LZMA2 的关键约束。每个线程需约 3 倍块大小的缓冲（输入 / 输出 / 字典），加上开销，总内存 ≈ threads × (3 × block_size + dict)。使用 --memlimit-compress=4GiB 可自动调整：优先减线程数，若不足则降字典大小或回退单线程（除非 --no-adjust）。例如，16 线程、64MiB 块需约 3-4GiB；超限时自动降至 8 线程。监控脚本：watch -n1 'ps -o rss= -p $(pgrep xz) | awk "{sum+=\$1} END {print sum/1024 \"MiB\"}'。

madvise 集成进一步优化 I/O 密集场景，虽非 XZ 核心，但 liblzma 允许在自定义编码器中应用。对于大块顺序读写，建议在输入缓冲前调用 madvise(buf, size, MADV_SEQUENTIAL | MADV_WILLNEED)，减少页错误 20-30%。输出缓冲用 MADV_SEQUENTIAL。在多线程中，每个线程独立 madvise 其块缓冲，避免全局锁。示例代码片段（C，使用 liblzma）：

lzma_stream stream = LZMA_STREAM_INIT;
lzma_filter filters[] = {
    { .id = LZMA_FILTER_LZMA2, .options = &lzma2_options },
    { .id = LZMA_VLI_UNKNOWN }
};
lzma_ret ret = lzma_code(&stream, LZMA_FULL_BARRIER);
// 前置 madvise(input_buf, block_size, MADV_SEQUENTIAL);

可落地参数清单：

线程数：-T0（auto）或 -T$(nproc)，上限 CPU 核心 × 1.5，避免超调度。
块大小：--block-size=64MiB（小文件用 16MiB，大文件 256MiB），平衡并行与内存。
滤波器链：通用 --lzma2=preset=6,dict=32MiB；文本 --delta=delta,offset=1;lzma2=preset=7；二进制 --bcj=x86;lzma2=preset=9。
内存限：--memlimit-compress=80% 系统 RAM，启用 auto-adjust。
监控点：CPU 利用率 >90%、内存峰值、压缩比（xz -l file.xz）、吞吐（time xz -c input > output.xz）。
回滚策略：若比单线程低 >5%，用 --threads=1；I/O 瓶颈时预读 --memlimit-decoder=2GiB。

风险与限界：多线程压缩比降 0.5-2%（因块边界熵）；不支持多线程解压（内核 XZ 模块计划支持）；高线程下锁竞争。测试基准：Core i9-13900K，-T16 --block-size=128MiB 下，10GiB tar 吞吐达 2.5GiB/s，单线程仅 800MiB/s。

通过上述配置，XZ Utils 多线程 LZMA2 适用于云归档、备份管道，实现 3-4x 加速，同时兼容现有工具链。

资料来源：