象棋引擎 Centipawn 评估指标：定义、胜率转换与训练数据标注的工程化局限

在现代象棋引擎的开发体系中，Centipawn（cp）是连接引擎内部评估逻辑与人类可理解性之间的核心桥梁。作为 1/100 兵（pawn）的计量单位，Centipawn 将复杂的局面评估压缩为单一标量，使开发者能够直观地比较不同招法的优劣。然而，这一便利性背后隐藏着不容忽视的统计学陷阱 —— 特别是在将 Centipawn 用于训练神经网络评估器（NNUE）的场景中，标签质量的细微偏差可能导致模型行为出现系统性偏移。本文将从定义出发，解析 Centipawn 与胜率之间的转换模型，重点剖析其作为训练数据标注的局限性，并给出可落地的工程改进策略。

Centipawn 的定义本身极为简洁：100 Centipawn 等于 1 个兵的子力价值。当引擎输出 +100 时，表示白方拥有约莫一兵的子力优势；-50 则意味着黑方拥有半个兵的优势；0.00 代表引擎认为局面均等。需要特别强调的是，这个数值并非仅反映子力计算，而是将王的安全性、棋子活跃度、兵链结构、主动权（initiative）等多重因素综合权衡后的结果。以 Stockfish 为代表的现代引擎通过深度搜索与启发式评估的结合，将这些难以量化的战术与战略因素映射为单一的 Centipawn 分数。这种聚合方式对于人类理解而言足够直观，但在向下游任务传递信息时，信息损失不可避免。

为了让这一抽象数值具有更直观的概率含义， Lichess 平台与 Stockfish 团队基于大规模实战数据拟合了一条逻辑斯蒂曲线，将 Centipawn 转换为近似的胜率预测。公式如下：Win% = 50 + 50 × (2 / (1 + e^(−0.00368208 × cp)) − 1 )。从该公式可以观察到几个关键特征：cp 为 0 时胜率恰为 50%，对应完全均等的局面；正向的 cp 会推动胜率以非线性方式攀升 —— 从 0 到 +100 cp 的提升对胜率的贡献相对温和，而从 +500 到 +600 cp 的同等增幅在实际意义上几乎可以忽略，因为局面早已被判定为接近必胜。这种非线性的根源在于象棋的博弈本质：当一方积累足够优势后，剩余的子力差距对翻盘概率的影响呈边际递减趋势。该转换公式在实践中被广泛采用，但它本质上是一种经验拟合，不同平台或引擎可能采用略有差异的参数版本，因此不应将其视为精确的概率断言。

在工程实践中，真正的挑战并非理解 Centipawn 本身的含义，而是当它被用作训练神经网络评估器的标签时所暴露的系统性缺陷。这些缺陷可以归纳为五个核心维度。

首先是教师引擎偏差（Teacher Bias）。所有 Centipawn 标签都不可避免地携带生成它的引擎的固有偏见。不同引擎对某些局面的评估风格存在显著差异 —— 有的倾向于高估兵链的价值，有的则对王的安全性格外敏感。如果直接使用单一引擎（例如 Stockfish）的评估作为标签进行知识蒸馏，训练出的神经网络实际上是在复刻该引擎的评估范式与认知盲点，而非学习某种客观的 “真实” 局面价值。这意味着即便训练数据量足够大，模型也会继承教师引擎的结构性误差，在某些特定局面类型上表现出持续性的误判。

其次是噪声位置问题（Tactically Noisy Positions）。在战术激流位置，评估结果对搜索深度和招法顺序极为敏感。同一局面在浅层搜索下可能显示为白方稍优，而在深层搜索后可能翻转成黑方有利。这种评估不稳定性意味着标签本身是模糊的，如果神经网络在训练过程中过度学习这些噪声样本，梯度更新方向会在不同轮次之间剧烈摆动，导致收敛困难甚至出现振荡。实践中，这种现象往往表现为模型在实战中频繁出现不合逻辑的弃子或拒绝明显的优势局面。

第三是分布失衡（Distribution Skew）。真实对局中的局面分布呈显著的高斯特性 —— 绝大多数局面对应的 Centipawn 值聚集在 0 附近，表示双方大致均势。极端优势或劣势的局面在训练数据中极为稀缺。如果不做任何重采样处理，神经网络会在 “判断均等局面” 这一任务上投入绝大部分参数容量，而对明显优势或劣势局面的辨识能力则显著不足。结果是模型在关键胜负局面中表现萎靡，因为它从未在训练阶段见过足够多样的此类样本。

第四是饱和与截断效应（Saturation & Clipping）。大多数训练系统在预处理阶段会将 Centipawn 限制在 ±5000 的范围内，这意味着 “必胜但复杂” 和 “必胜且简明” 的两类局面被压缩到同一个标签区间。神经网络无法在这种截断后的标签上学习到 “有意义的大小之分”，因为梯度在饱和区域几乎为零。这种粗糙的标签映射在残局训练中尤为棘手 —— 恰恰是在子力很少的残局中，精确的微优判断对胜负结果有决定性影响，而饱和截断剥夺了模型区分这些微妙差异的能力。

第五是决策边界敏感性（Threshold Sensitivity）。在搜索引擎的实际应用场景中，许多关键决策依赖固定的阈值规则：例如当评估值超过 +150 cp 时选择强制兑换子力以简化局面，或在 -100 cp 以下启动防守模式。如果标签噪声导致某一局的真实评估本应低于阈值却被打上高于阈值的标签，模型的行为会在这一边界附近出现不可预测的漂移。由于训练数据中边界附近的样本密度通常很高，这种噪声对搜索效率的负面影响会被放大。

针对上述五类局限，业界已形成若干经过验证的工程化改进策略。静位置筛选（Quiet-Position Filtering）是目前最被广泛采纳的手段：通过启发式规则或自动评估波动检测，剔除战术不稳定、搜索深度不足或评估值在浅层与深层之间差异过大的局面，只保留 “安静” 且评估可靠的位置用于核心训练。这种筛选能显著提升梯度信号的信噪比，使神经网络的收敛路径更加平稳。数据平衡与增强（Balancing & Augmentation）则通过随机走子生成或重采样技术，人为扩大极端评估值在训练集中的占比 —— 例如随机步进若干回合后再用引擎评估，往往能产生偏离均值的局面，从而改善标签分布的偏斜程度。标签裁剪与映射（Capping & Rescaling）策略在保留原始数值信息的前提下，对极端值进行对数变换或分段映射，使网络在各个评估区间都能获得有意义的梯度信号。教师引擎选择与深度控制（Teacher-Choice & Depth Control）建议使用高深度搜索（如 40 层以上）的强引擎作为教师，并在数据生成阶段统一搜索参数（如哈希大小、线程数），以降低标签的方差。除此之外，引入多教师集成（Ensemble Distillation）—— 即同时使用多个不同架构引擎的评估作为软标签 —— 可以在一定程度上缓解单一教师偏差的问题，使训练出的模型更具泛化能力。

综合来看，Centipawn 作为象棋引擎评估的标准化语言，在人类可解释性与下游任务应用之间提供了便利的桥梁。然而，当它被赋予 “训练标签” 的角色时，其固有的信息压缩、分布偏斜与噪声敏感性会深刻影响神经网络评估器的学习效果。工程团队不应仅关注模型架构的创新，更应在数据预处理阶段投入足够的注意力 —— 通过静位置筛选、分布重平衡、标签变换与多教师集成等手段，最大程度地还原评估信号中的有效信息。只有这样，基于 Centipawn 标签训练的 NNUE 类评估器才能在实战中表现出接近甚至超越传统启发式评估的棋力。

参考资料

Chessprogramming wiki, "Centipawns"（Centipawn 的标准化定义与计量单位说明）
Lichess, "Accuracy metric"（Lichess 平台采用的 Centipawn 与胜率转换公式）