射线与三角网格求交的SIMD向量化：从SSE到AVX-512的指令级并行实践

在实时光线追踪系统中，射线与三角网格的求交计算通常占据整体渲染时间的 70% 以上。与昨日讨论的 BVH 加速结构优化不同，本文聚焦于求交计算本身的指令级并行优化 —— 通过 SIMD 向量化将标量计算转化为向量运算，在单条指令周期内并行处理多组数据，从而突破 CPU 单核性能瓶颈。

SIMD 向量化基础与内存布局策略

现代 x86 处理器提供的 SIMD 寄存器宽度从 SSE2 的 128 位（容纳 4 个 float）发展到 AVX2 的 256 位（8 floats），再到 AVX-512 的 512 位（16 floats）。这意味着理论上 AVX-512 可同时处理 16 条射线的求交计算，或同时测试一条射线与 16 个三角形的相交关系。

然而，SIMD 优化的首要瓶颈并非指令吞吐量，而是内存布局。Structure of Arrays (SoA) 布局是实现高效 SIMD 加载的前提条件。传统的 Array of Structures (AoS) 布局将三角形的顶点坐标 (x,y,z) 连续存储，导致同一属性的数据在内存中分散；而 SoA 布局将三角形的所有 x 坐标、y 坐标、z 坐标分别存储在独立数组中，确保_mm_load_ps或_mm512_load_ps能够一次性加载对齐的连续数据。

实践表明，将三角形数据从 AoS 转换为 SoA 布局后，即使不启用 SIMD 指令，仅依靠缓存局部性提升，求交性能也可获得 15%-20% 的增益。若进一步采用 16 字节（SSE）或 64 字节（AVX-512）对齐的内存分配策略，可消除未对齐加载带来的额外周期开销。

Möller–Trumbore 算法的 SIMD 实现

射线与三角形的求交计算通常采用 Möller–Trumbore 算法，该算法通过求解线性方程组计算交点参数 t、u、v。算法的核心计算包括叉积、点积和行列式求解，这些操作天然适合 SIMD 向量化。

在 SSE4.1 实现中，射线方向向量和原点需要首先通过_mm_set_ps1广播到 4 个 SIMD 通道。随后，算法对 4 个三角形并行执行以下步骤：计算边向量、求解行列式、执行边界检查。每个三角形的求交结果通过掩码操作存储，最终使用_mm_min_ps和 shuffle 指令提取最近的有效交点。

实验数据显示，纯 SSE4.1 向量化可将射线处理速率从 10 Mrays/s 提升至 38-41 Mrays/s，接近 4 倍理论加速比的上限。这一结果验证了 SIMD 在计算密集型求交任务中的有效性。

AVX-512 指令级并行与工程权衡

AVX-512 将 SIMD 宽度扩展至 16 floats，理论上可实现比 SSE 高 4 倍的吞吐量。然而，实际优化中需权衡以下因素：

射线相干性约束：宽 SIMD 要求同时处理的射线具有相似的遍历路径。对于相干的初级射线（相机射线），16-wide SIMD 可充分发挥并行优势；但对于高度发散的次级射线（反射 / 折射射线），不同射线可能命中完全不同的三角形，导致 SIMD 利用率下降。实践中可采用射线分 packet策略，将空间相邻的射线打包为 16-wide packet 统一处理。

CPU 频率降频风险：AVX-512 指令的功耗较高，部分处理器在执行 AVX-512 heavy workload 时会触发频率下调。建议在实现中提供运行时检测机制，根据工作负载特性动态选择 SSE4.1 或 AVX-512 代码路径。

内存带宽瓶颈：16-wide SIMD 每周期可消耗 64 字节数据，若场景数据无法驻留 L2/L3 缓存，内存带宽将成为瓶颈。优化策略包括：采用紧凑的三角形表示（去除冗余属性）、实施分块渲染（tile-based rendering）以提升数据复用率。

性能测试表明，在相同场景下 AVX-2 实现可达 45-51 Mrays/s，较 SSE4.1 提升约 20%-25%。AVX-512 的额外增益受限于上述因素，通常在 10%-15% 区间。

可落地的优化参数清单

基于工程实践，以下是射线 - 三角形求交 SIMD 优化的关键参数与检查点：

优化维度	推荐配置	验证指标
内存布局	SoA + 64 字节对齐	检查`_mm512_load_ps`是否替代`_mm512_loadu_ps`
SIMD 宽度	优先 AVX2 (8-wide)，AVX-512 视场景相干性启用	监控 SIMD 通道利用率（VTune）
三角形预计算	预计算边向量与法线，避免运行时叉积	每三角形内存占用 ≤ 48 bytes
射线 Packet 大小	初级射线 16-wide，次级射线 8-wide 或 4-wide	测量每 packet 的活跃通道比例
编译优化	启用 LTO（链接时优化），`-O3 -march=native`	对比 LTO 开启前后的 rays/s 指标

对于生产环境部署，建议实现多版本代码路径：SSE4.1 作为基线保证兼容性，AVX2 覆盖主流 x86_64 平台，AVX-512 作为可选加速。运行时通过cpuid检测指令集支持，结合场景射线相干性分析动态选择最优路径。

资料来源

bitshifter.github.io - "Optimising path tracing with SIMD" (2018)
Afra, A. - "Faster Incoherent Ray Traversal Using 8-Wide AVX Instructions" (2013)
Intel Intrinsics Guide - SIMD 指令参考手册

systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。