x86 XOR 清零习语向量化：AVX/SSE 实现 Lane-Independent Zeroing

在 x86 汇编优化中，xor reg, reg 是将通用寄存器清零的黄金习语：它仅需 2 字节编码，比 mov reg, 0 的 5 字节更紧凑，且现代 CPU 能识别其为 “零化 idiom”，消除对先前寄存器值的读后写依赖，实现零延迟重命名。该习语的核心优势在于无依赖独立性：结果恒为零，无论输入何值。这直接启发向量化扩展：在 SSE/AVX 寄存器上，使用 pxor xmm0, xmm0, xmm0 或 vpxorps ymm0, ymm0, ymm0 等价实现lane-independent zeroing，每个 32/64-bit lane 自异或清零，无跨 lane 依赖链。

传统清零方式如 movdqa xmm0, [zero_mem] 引入内存访问延迟（L1d 命中～4 cycles），或移位如 pslld xmm0, 32（饱和移位清零）可能产生 lane 间波及依赖（shift ports 饱和或融合）。XOR 零化则完美 lane-independent：SIMD ALU ports（如 Intel p0/p1）并行处理各 lane，latency=1（self-dep），throughput=0.33-1/cycle（视 uop ports）。这打破跨 lane 依赖，提升 superscalar ILP（指令级并行）：后续 add/mul 可立即调度到独立 lane，而非等待全向量完成。

实证数据来自 Agner Fog 指令表与 uarch.net 测试：在 Skylake/Zen 上，vpxorps ymm0, ymm0, ymm0 全清 256-bit YMM，latency=1，recip throughput=1/cycle（p0/p1）。对比 scalar xor rax, rax（latency=0 on rename），向量版继承零 dep 优势，但 AMD pre-Zen3 AVX-256 需拆分 128-bit（vxorps xmm0）避 slowdown（upper bits auto-zero）。Stack Overflow 汇总 20+ 零化方式中，PXOR/VPXOR 最优：无 FP 异常风险（vs cmplt/cmpfalse），无饱和移位开销。

工程落地参数：

Intrinsics 选择：_mm_setzero_si128()（SSE）或 _mm256_setzero_si256()（AVX），编译为 pxor/vpxor；浮点用 _mm_setzero_ps()。
阈值：向量宽 ≥128-bit 时优先；循环中零化频率 >10%，用 XOR 替换 mov/memload 获 2-4x throughput。
监控点：perf stat -e cycles:u,instructions:uops_issued.any（目标：uops/cycle <2）；topdown L1-bound <20%（零化不卡 mem）。
清单：
1. 寄存器分配：优先 xmm0-15（AVX1 vzeroall 零化全组）。
2. 融合：后接 vaddps/vmulps 融合 FMA（如 Skylake p0）。
3. 回滚：若 AVX-512，vxorps zmm0-15 用 EVEX 零上半（节省字节）。
4. 测试：Godbolt.org 验证 asm；基准 1e9 iter，测 IPC >3.5。

风险限界：AMD Zen1/2 AVX-256 warmup（前 64K instr 降速 2x），阈值 < 1K iter 用 SSE128；非对齐 mem 后零化用 unaligned loadu+pxor。实际场景如矩阵清零 / NN bias init，结合 vbroadcast 获峰值吞吐。

资料来源：xania.org（Matt Godbolt xor 解释）；Stack Overflow “How many ways to set a register to zero?”（向量零化列表）。