有序抖动与 Bayer 矩阵：离散化图像的阈值映射工程实践

在图像处理领域，当我们需要将连续色调的图像量化到有限的色深时，直接的阈值分割往往会导致严重的色带效应（banding）和细节丢失。有序抖动（Ordered Dithering）作为一种经典的误差分散技术，通过预计算的阈值矩阵在空间上重新分配量化误差，从而在有限调色板下保持图像的边缘连续性与纹理细节。本文将聚焦有序抖动的工程实现，解析 Bayer 矩阵的构造原理与参数配置策略。

有序抖动的核心原理

与 Floyd-Steinberg 等误差扩散算法逐像素传播误差不同，有序抖动采用完全确定性的处理方式。其核心思想是使用一个预先计算好的阈值矩阵（通常称为 Bayer 矩阵），将该矩阵在图像平面上平铺铺开，对每个像素执行阈值比较操作。假设原像素值为 $c$（归一化到 $[0, 1]$ 区间），矩阵中对应位置的阈值为 $M (x \bmod n, y \bmod n)$，其中 $n$ 为矩阵边长，则抖动后的量化结果可表示为：

$$c' = \mathrm{nearest_palette_color}\left(c + r \times \left(M(x \bmod n, y \bmod n) - 1/2\right)\right)$$

其中 $r$ 为抖动强度系数，通常取 $0.5$ 到 $1.0$ 之间的值。关键在于矩阵元素的分布设计 —— 理想的 Bayer 矩阵能够确保阈值在空间中均匀且低相关性地分布，使得相邻像素的抖动决策相互独立，从而避免系统性条纹的产生。这种空间分散策略的本质是用空间频率换色调精度，在视觉上产生更均匀的噪点分布，而非明显的块状伪影。

Bayer 矩阵的递归构造

Bayer 矩阵的最优构造遵循递归公式，该公式基于 Kronecker 张量积运算。对于边长为 $n$ 的矩阵 $M_n$，其递归定义为：

$$\mathbf{M}_{2n} = \frac{1}{(2n)^2} \begin{bmatrix} 4\mathbf{M}_n & 4\mathbf{M}_n + 2\mathbf{J}_n \ 4\mathbf{M}_n + 3\mathbf{J}_n & 4\mathbf{M}_n + \mathbf{J}_n \end{bmatrix} = \mathbf{J}_2 \otimes \mathbf{M}_n + \frac{1}{n^2}\mathbf{M}_2 \otimes \mathbf{J}_n$$

其中 $\mathbf {J}_n$ 是 $n \times n$ 的全一矩阵，$\otimes$ 表示 Kronecker 积。递归的基例是 $2 \times 2$ 的初始矩阵：

$$\mathbf{M}_2 = \frac{1}{4} \begin{bmatrix} 0 & 2 \ 3 & 1 \end{bmatrix}$$

通过这个递推关系，我们可以依次生成 $4 \times 4$、$8 \times 8$、$16 \times 16$ 等规格的矩阵。值得注意的是，当矩阵边长为 2 的幂次时，Bayer 矩阵在数学上被证明是近似最优的阈值矩阵，能够最大化抖动图案的空间随机性。以下是 $4 \times 4$ Bayer 矩阵的实际数值（已归一化到 $[0, 1]$）：

$$ \mathbf{M}_4 = \frac{1}{16} \begin{bmatrix} 0 & 8 & 2 & 10 \ 12 & 4 & 14 & 6 \ 3 & 11 & 1 & 9 \ 15 & 7 & 13 & 5 \end{bmatrix} $$

在工程实现中，通常将矩阵元素乘以量化级数（如 256）后取整，存储为查表结构以避免实时计算开销。

矩阵规格与工程参数选择

选择合适的矩阵规格是有序抖动实现中的关键决策点。$2 \times 2$ 矩阵仅包含 4 个阈值级别，产生的抖动图案周期性极强，在渐变区域会形成明显的条纹状伪影，适用于对实时性要求极高但对质量要求宽松的场景。$4 \times 4$ 矩阵是工程实践中最常用的规格，16 个阈值级别在视觉质量与计算开销之间取得了良好平衡，能够有效处理大多数自然图像的量化需求。$8 \times 8$ 矩阵提供 64 个阈值级别，抖动图案更加细腻，但矩阵元素数量增加了 16 倍，对于高分辨率图像可能产生可感知的周期性纹理。$16 \times 16$ 矩阵理论上提供最佳效果（256 个阈值级别，与 8 位灰度级一一对应），但其 $256$ 个元素的查表开销较大，且在某些场景下可能产生被称为「十字交叉纹」（crosshatch pattern）的特征性伪影。

实际工程中的另一个重要参数是矩阵的缩放与偏移。在某些实现中，Bayer 矩阵会被缩放到 $[-0.5, 0.5]$ 区间，直接加到原始像素值上后再进行量化判断。这种处理方式的优势在于避免了浮点运算，可以完全使用整数算术完成：设原像素为 $p$（范围 $0 \sim 255$），矩阵元素为 $m$（范围 $0 \sim 255$），则判断条件为 $p + (m - 128) \ge 128$，即 $p + m \ge 256$ 时输出亮色，否则输出暗色。这种整数化实现对于嵌入式系统和实时渲染管线具有重要价值。

边缘保持与纹理保护机制

有序抖动在保持图像边缘连续性方面具有独特优势，这源于其阈值比较的局部性特征。在边缘区域，像素值的变化通常远大于矩阵阈值的空间变化频率，因此抖动决策主要由原始像素值决定，边缘两侧的像素会趋向于各自的量化稳定状态，从而保持清晰的边缘轮廓。相比之下，误差扩散算法（如 Floyd-Steinberg）会在边缘附近产生回响效应，可能导致边缘模糊或振铃现象。

对于纹理区域，有序抖动的表现则取决于纹理的空间频率与矩阵周期的匹配程度。当纹理周期与矩阵周期存在特定谐波关系时，可能出现摩尔纹（moiré pattern）或纹理强化效应。实践中常用的缓解策略包括：对矩阵元素进行随机微扰以打破周期性，或在渲染时引入时域抖动（如在视频序列中对相邻帧使用不同的矩阵偏移）。对于静态图像处理，适当选择矩阵规格并进行主观测试验证是更务实的做法。

工程实现的查表优化

在高性能场景中，有序抖动的查表实现可以进一步优化。传统方法为每个像素计算 $(x \bmod n, y \bmod n)$ 索引并查表获取阈值，这个过程涉及两次取模运算和一次数组访问。现代实现通常预先计算一维化的行偏移表和列偏移表，将二维索引转换为一维线性索引，从而将取模运算替换为位运算（当 $n$ 为 2 的幂次时）。对于 $8 \times 8$ 矩阵，索引计算可以优化为：

// 假设 x, y 为像素坐标，matrix 为 64 元素的一维数组
int index = ((y & 7) << 3) | (x & 7);
int threshold = matrix[index];

这种位运算方案在 ARM 和 x86 架构上均可获得极佳的指令吞吐量，对于每秒处理数十亿像素的图像处理管线具有显著意义。此外，当处理多通道图像（如 RGB）时，可以为每个通道分配不同的矩阵偏移量，以避免各通道的抖动模式完全重叠导致的色彩失真。

局限性与发展方向

有序抖动的确定性特性既是优势也是局限。由于算法对相同输入始终产生相同输出，在动画或视频序列中可能导致帧间闪烁（flickering），尤其当抖动图案的空间周期与帧率存在特定关系时更为明显。解决方案包括使用时域协调抖动（Temporal Coordinate Dithering），在连续帧之间平滑过渡阈值矩阵的相位，或结合人类视觉系统的时域特性设计低频抖动的矩阵变体。

在深度学习时代，神经网络驱动的抖动方法（如基于 GAN 的误差扩散）能够学习更符合人类感知的抖动模式，但这些方法的计算开销远高于传统有序抖动，且模型体积和推理延迟使其难以在边缘设备上部署。因此，有序抖动在资源受限场景、实时渲染管线以及需要确定性输出的应用中仍然保持着不可替代的地位。

参考资料

Wikipedia: Ordered dithering（https://en.wikipedia.org/wiki/Ordered_dithering）
Bayer.c: Ordered dithering implementation（https://gist.github.com/etscrivner/c0738c37907c05eefc642462a5ee4722）