多模型事实核查分歧检测：67%不一致率下的可信度评分机制

核心发现：单一模型不可靠

Lenz Research 在 2026 年 5 月发布的一项研究揭示了一个令人警醒的事实：在 1000 条真实用户提交的事实核查声明中，5 个前沿大语言模型（GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro + Search、Sonar Pro）在 67% 的声明上存在分歧。这意味着，如果你仅依赖单一模型进行事实核查，有超过三分之二的概率会得到一个 "有争议" 的判定。

研究采用四级判定框架（True / Mostly True / Misleading / False），通过 Krippendorff's α（序数层级）计算得出模型间一致性系数为 0.639—— 这表明模型间存在结构性关联而非随机分布，但一致性远不足以将多模型面板视为可互换的单一评判者。

分歧的两种形态

研究区分了两种分歧类型：

校准型分歧（1 级差距）：如 "True" 与 "Mostly True" 之间的差异，反映的是置信度校准的偏移，而非事实判断的根本对立。

实质性分歧（≥2 级差距）：如 "True" 与 "False" 之间的对立，意味着模型对声明的真实性存在根本性的判断差异。34% 的声明存在这种实质性分歧，其中涉及 "Misleading"（误导性）标签的判定最为混乱。

一个关键发现是：模型在极端判定（True/False）上更容易达成一致，而中间类别（Mostly True、Misleading）是分歧的重灾区。在 328 条获得一致判定的声明中，仅有 4 条被一致标记为 "Misleading"，0 条被一致标记为 "Mostly True"。

模型行为差异图谱

不同模型展现出显著的决策偏好差异：

Gemini 3 Pro 与其检索增强版本（Gemini 3 Pro + Search）的一致性最高，达 75%
Claude Opus 4.7 与 Gemini 3 Pro 的一致性最低，仅 53%
参数模型（GPT-5.4、Claude Opus 4.7、Gemini 3 Pro）倾向于将判定集中在 True/False 两极
检索增强模型（Gemini 3 Pro + Search、Sonar Pro）的判定分布更均匀，在 "Mostly True" 和 "Misleading" 两个中间类别上有更高的覆盖率

这种差异暗示了一个重要的工程启示：参数模型与检索增强模型的组合使用，可能比同类型模型的简单堆叠更有价值。

构建可信度评分机制

基于上述发现，可以构建一套可落地的多模型事实核查可信度评分机制：

1. 分歧检测阈值设定

低分歧阈值（1 级差距）：触发人工复核的最低门槛
高分歧阈值（≥2 级差距）：强制人工介入的硬性标准
无多数判定（3 个或以上不同判定）：自动标记为 "高不确定性"

2. 可信度评分公式

建议采用以下加权公式计算声明的可信度得分：

可信度得分 = (一致模型数 / 总模型数) × (1 - 最大差距 / 3)

其中，最大差距为任意两个模型判定之间的级数差（True=0, Mostly True=1, Misleading=2, False=3）。得分范围为 0 到 1，得分低于 0.6 的声明应触发人工复核流程。

3. 模型组合策略

核心组合：至少包含 1 个参数模型（GPT-5.4 或 Claude Opus 4.7）+ 1 个检索增强模型（Gemini 3 Pro + Search 或 Sonar Pro）
扩展组合：5 模型面板（3 参数 + 2 检索增强），适用于高价值声明的深度核查
避免组合：同一家族的模型（如 Gemini 3 Pro 与其检索增强版本）一致性过高，无法提供有效分歧信号

4. 动态置信度调整

对于被标记为 "Misleading" 或 "Mostly True" 的声明，应自动降低系统输出的置信度，并附加免责声明。研究表明，这两个类别的判定一致性最低，即使是前沿模型也难以形成稳定共识。

局限与风险

需要清醒认识的是，分歧检测机制只能识别 "不一致"，无法判定 "谁对谁错"。研究明确指出，多数判定并不等同于正确判定 —— 在 33% 获得一致判定的声明中，仍可能存在模型的共享盲点。

此外，四级判定框架本身存在固有的模糊性。即使是专业的事实核查员，在相同声明上的判定一致性也仅达到 κ=0.619（基于 AVeriTeC 数据集），这表明部分分歧源于任务本身的难度，而非模型的缺陷。

工程实施建议

在生产环境中部署至少 3 个异构模型（不同厂商、不同架构），确保分歧信号的有效性
建立分歧日志，记录模型间的判定差异模式，用于持续优化模型选择和权重分配
为 "Misleading" 类别设置专门的复核流程，这是当前技术下最难自动处理的判定类型
定期重跑历史声明，监测模型版本更新对一致性的影响

多模型分歧检测不是万能的，但它是当前技术条件下最可行的风险控制手段。当 67% 的声明存在分歧时，承认不确定性比假装确定更诚实，也更有价值。

参考来源

Lenz Research: "Beyond Benchmarks: Frontier LLM Disagreement on Fact-Checks" (2026 年 5 月)
研究数据：doi.org/10.5281/zenodo.20344847

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。