极简CPU光栅器核心算法解析：三角形扫描转换、深度缓冲与透视校正

在现代 GPU 功能日益强大的今天，从零实现一个运行在 CPU 上的极简光栅器似乎是一项复古且看似无意义的任务。然而，这种实现不仅是绝佳的编程练习，更是深入理解 GPU 渲染管线工作原理的最佳途径。一个真正理解渲染算法的人，无论使用 DirectX、Vulkan 还是 OpenGL，都能写出更高效的图形代码。本文将剖析一个极简 CPU 光栅器的核心实现，聚焦于三角形扫描转换、深度缓冲与透视校正纹理映射这三个关键环节。

为什么需要 CPU 光栅器

在深入算法细节之前，有必要理解 CPU 光栅器的存在价值。首先，这是一个极佳的编程练习项目，它融合了低级编程技巧、算法设计、数学推导和图形学知识于一身。其次，实现一个光栅器是理解 GPU 工作原理的最直接方式。GPU 本质上是一个高度并行化的光栅化引擎，了解它的每一个算法步骤，有助于在 GPU 编程时做出更优的决策。此外，当前的软件渲染研究（如 Nanite 等高级 LOD 技术）在计算着色器中使用的算法与 CPU 光栅器的基本算法是一致的。最后，这也是硬件实现的跳板，理解软件实现是设计专用图形硬件的基础。

需要注意的是，CPU 光栅器的性能与 GPU 相比存在数量级的差距。一个典型的 CPU 光栅器在 640×480 分辨率下只能勉强达到实时渲染，而更高分辨率则难以实现。但这并不影响其作为学习工具的价值。

三角形扫描转换的核心算法

三角形扫描转换是光栅化的第一步，其目标是将三角形从几何表示转换为像素级表示。最直接的方法是对屏幕上每个像素进行测试，判断其是否位于三角形内部。这种朴素方法虽然正确，但效率极低。在 1080p 分辨率下，渲染一个像素级的三角形需要遍历超过两百万个像素点，其中绝大多数测试都是无效的。

包围盒优化是提升效率的第一个关键技巧。对于每个三角形，首先计算其在屏幕空间的包围盒，即包含三角形的最小矩形区域。然后，只需遍历该矩形区域内的像素点，而非整个屏幕。计算包围盒的代码非常直接：对三个顶点的 x 和 y 坐标分别取 floor 和 floor 操作即可获得整数坐标范围。在实际代码中，还需要将包围盒与视口边界进行约束，防止三角形在视口外时产生越界访问。

判断点是否在三角形内的标准方法是使用重心坐标或行列式测试。对于逆时针方向定义的三角形，一个点 P 位于三角形内部当且仅当它相对于三条边的行列式值均大于等于零。具体而言，对于边 V0V1，需要计算 det (v1 - v0, p - v0)，并确保该值非负。这个行列式的几何意义是向量 v1-v0 与 p-v0 的二维叉积，其符号反映了点 p 相对于边 v0v1 的左右位置关系。

三角形方向修正是另一个需要处理的问题。在屏幕坐标系中，y 轴通常向下延伸，这与数学中 y 轴向上的标准坐标系相反。这意味着在数学空间中逆时针定义的三角形，在屏幕空间中可能呈现顺时针方向。由于行列式测试依赖于三角形方向，因此需要检测并修正三角形方向。具体做法是计算三角形整体的方向：如果三个顶点的行列式和小于零，说明是顺时针方向，需要交换两个顶点以修正方向。

背面剔除是 3D 渲染中的重要优化。对于封闭凸多面体（如立方体），背对摄像机的面必然被前面的面遮挡，因此可以直接跳过渲染这些面。实现上，只需根据三角形的屏幕空间方向决定是否剔除：顺时针三角形被剔除（cull_mode::cw）或逆时针三角形被剔除（cull_mode::ccw）。这个优化可以减少约一半的三角形处理量，对于性能极低的 CPU 光栅器尤为重要。

深度缓冲的实现与参数配置

深度缓冲是解决可见性问题的核心机制。当多个三角形投影到屏幕的同一像素时，深度缓冲用于确定哪个三角形应该显示。在绘制每个像素之前，先进行深度测试：只有当新像素比已存储的像素更靠近摄像机时，才更新颜色缓冲和深度缓冲。这种机制被称为深度测试（depth test）或 Z-buffering。

深度缓冲存储的是经过透视除法后的 z/w 值。这个值在近裁剪面处映射到 - 1（或 0，取决于 API 约定），在远裁剪面处映射到 1。深度缓冲的格式通常是 24 位无符号归一化整数，但 C++ 没有原生的 24 位类型，因此通常使用 32 位整数替代。深度值的映射公式为：将 z 从 [-1,1] 区间线性映射到 [0, UINT32_MAX] 区间。

深度测试支持多种模式，最常用的是 LESS 模式：当新像素的深度值小于缓冲区中存储的值时通过测试。这意味着深度值较小的像素（更靠近摄像机）会覆盖深度值较大的像素。其他模式包括 ALWAYS（总是通过）、NEVER（从不通过）、LESS_EQUAL、GREATER、GREATER_EQUAL、EQUAL 和 NOT_EQUAL。LESS 模式是最常用的，因为它符合近处物体遮挡远处物体的直觉。

深度写入控制是另一个重要参数。在某些情况下（如渲染半透明物体或粒子系统），可能需要执行深度测试但不更新深度缓冲值。这通过设置 depth.write = false 实现，而 depth.test.mode 保持为所需的测试模式。默认情况下，深度写入是开启的。

深度缓冲的初始化和清除是容易被忽视但至关重要的步骤。每一帧开始时，必须用最大值清除深度缓冲。如果不清除，深度缓冲会累积历史帧的最小深度值，导致几乎所有新像素都无法通过深度测试。清除值通常是 UINT32_MAX 或 - 1，因为深度测试使用 LESS 模式，而最大的深度值代表最远的距离。

深度缓冲的实现需要几个关键数据结构。首先是 image 模板类，用于管理像素内存分配。然后是 framebuffer 结构，封装颜色缓冲视图和深度缓冲视图。draw_command 结构需要扩展以包含深度测试设置。最终，在光栅化循环中，每个像素都需要执行深度测试逻辑：读取当前深度缓冲值，与计算得到的像素深度值进行比较，根据测试结果决定是否继续处理该像素。

透视校正纹理映射的原理与实现

透视校正插值是 3D 渲染中处理纹理坐标和顶点属性的关键算法。在 2D 渲染中，在屏幕空间直接线性插值属性是正确的方法。然而，透视投影会扭曲这种线性关系：屏幕上的等分点并不对应 3D 空间中的等分点。这就是为什么简单插值会导致纹理在 3D 物体上出现明显的扭曲和摆动。

问题根源在于透视投影的非线性特性。对于 3D 空间中一条线段上的两点 P0 和 P1，其屏幕投影的中点并不等于投影中点的屏幕坐标。数学表达式揭示了这一点：投影中点的 x 坐标是 (X0/W0 + X1/W1)/2，而投影线段中点的 x 坐标是 (X0 + X1)/(W0 + W1)。这两个值在一般情况下不相等。

透视校正插值的推导过程从线段插值开始。对于屏幕空间的插值参数 s，对应的 3D 空间参数 t 满足公式 t = sW0 / (sW0 + (1-s)*W1)。这个公式表明，当 s=0.5 时，如果 W0 远小于 W1（即 P0 靠近摄像机），t 会很小，说明 3D 空间的插值点更靠近 P0。这符合直觉：屏幕空间的中点更靠近近处的点。

将这个推导推广到三角形，可以得到透视校正插值的核心公式。对于三角形顶点 Vi 和对应的重心坐标 λi，首先计算调整后的权重 λi/Wi，然后对这些权重进行归一化（除以权重之和），最后使用归一化后的权重进行属性插值。关键洞见在于：这个权重调整对所有属性都是相同的，一旦计算好调整后的重心坐标，就可以用于插值任何属性。

在代码实现中，透视校正插值通常在三角形光栅化循环中进行。首先计算标准的屏幕空间重心坐标权重 l0、l1、l2（通过行列式值 det12p/det012 等）。然后应用透视校正调整：分别将每个权重除以对应顶点的 w 值，得到 l0/v0.position.w 等。最后对这些调整后的权重进行归一化处理。这一步修改后的权重即可用于任何属性的插值，包括纹理坐标、颜色、法线等。

工程实践中的关键参数与优化建议

基于以上算法分析，可以总结出几个关键的工程参数和优化建议。在视口和投影参数设置方面，near 和 far 平面决定了深度缓冲的可见范围，far-near 的值越大，深度缓冲的精度越低，因此应尽量缩小这个范围以获得更好的深度精度。fovY（垂直视场角）和 aspect_ratio（宽高比）直接影响透视投影矩阵的构建，应根据实际显示窗口的尺寸动态计算。

在性能优化方面，包围盒裁剪是最基本的优化，可以将像素遍历范围从全屏缩小到三角形包围盒。背面剔除可以消除约一半的三角形处理量，在 3D 场景中应始终开启。三角形裁剪的时机选择也很重要：裁剪在几何阶段进行（处理完整的三角形），而非在光栅化阶段进行，可以避免无效的像素处理。

深度缓冲的格式选择需要权衡精度和内存。32 位整数提供最高的精度，但 GPU 常用的 24 位格式在大多数场景下已经足够。如果内存受限，16 位深度缓冲也是可行的选择，但需要注意精度损失导致的深度冲突（z-fighting）问题。

理解这些核心算法的原理，不仅有助于从零实现光栅器，更能帮助理解现代图形 API 的工作方式。当你下次调用 glDrawElements 或 vkCmdDrawIndexed 时，你会清楚地知道底层发生了什么，以及如何更好地利用这些 API 的特性。

参考资料

lisyarus. "Implementing a tiny CPU rasterizer" 系列文章，Part 2-6. https://lisyarus.github.io/blog/posts/
Scratchapixel. "Rasterization: a Practical Implementation". https://www.scratchapixel.com/lessons/3d-basic-rendering/rasterization-practical-implementation/