复合AI系统的误差传播：从偏差-方差分解到多阶段流水线工程控制

当单个模型的准确率达到 95% 甚至 99% 时，工程团队往往认为系统已经足够可靠。然而，在多阶段 AI 流水线中，这种直觉会导致灾难性的误判。复合 AI 系统的核心风险不在于单点失效，而在于误差沿流水线非线性传播 —— 每个阶段无条件信任上游输出，使得微小偏差在下游被不断放大。

指数级衰减的数学现实

复合误差的数学规律简单却反直觉：对于 n 步顺序执行的工作流，若单步成功率为 p，则端到端成功率为 p^n。当单步准确率 95% 时，20 步 workflow 的整体成功率仅为 0.95^20≈36%；即便单步准确率高达 99%，100 步 workflow 的成功率也会暴跌至 36.6%。

这一规律在受监管行业中尤为危险。以商业抵押贷款证券化 (CMBS) 发行为例，一个典型的 workflow 包含 15 个顺序步骤：房产数据摄取、文件验证、产权确认、评估审核、环境筛查、借款人验证、财务报表分析、比率计算、压力测试、定价推导、招股说明书生成、监管披露汇编、SEC 文件组装、投资者通知和发行后报告。即使每个 agent 在测试集上达到 99% 准确率，500 笔交易中仍会有约 47 份招股书存在重大错报 —— 这足以触发 SEC 执法行动。

更严峻的是，实际 degradation 往往比简单乘法模型预测的更陡峭。研究表明存在自条件化效应：当语言模型处理包含自身错误的上下文时，后续步骤产生错误的概率会加速上升。模型倾向于在已有错误的前提下保持内部一致性，而非事实准确性。

误差放大的三大机制

检索 - 生成鸿沟

在 RAG 流水线中，47%-67% 的查询会出现生成器忽略检索器返回的顶级文档、转而依赖参数化记忆的现象。当检索器返回准确信息而生成器选择忽略时，生成的幻觉会被下游阶段当作 "已检索的 ground truth" 处理，导致检索机制完全失效。

子意图失序

Agentic 系统将复杂任务分解为顺序子任务，每个子任务依赖于前置任务的成功完成。当早期子任务产生幻觉输出 —— 如实体识别错误、API 调用结果伪造 —— 所有依赖子任务都在错误前提下运行。这种结构化错误传播通过依赖图扩散，而非随机噪声。

扩展推理放大

反直觉的是，更长的推理链会增加复合幻觉风险。当模型进行扩展思维链推理时，每个中间步骤都可能引入错误，而后续步骤会在此基础上继续构建。研究表明，增强的推理能力实际上可能放大工具幻觉率 —— 模型通过推理获得对错误答案的更高置信度。

工程控制策略

接缝边界验证门

在流水线阶段之间插入验证检查点，而非仅在最终输出处评估。核心设计原则包括：

独立验证器：若 Stage 2 产生输出，不应由 Stage 2 自身验证。使用独立模型、确定性规则检查或结构化蕴含评分器，确保验证器不受生成上下文的影响。
跨度级验证：在跨度级别而非文档级别验证声明，将具体声明追溯至源文档，标记未锚定在检索内容中的声明。
原因编码门决策：验证门应输出结构化原因代码（如 "hallucinated_date"、"unsupported_claim"），而非简单的通过 / 失败，以便识别高频失败类型并针对性调优。

有范围上下文传递

仅向前传递相关上下文，而非完整累积历史。不感知 Stage 2 和 Stage 3 错误的 Stage 4 无法基于这些错误进行条件化。研究表明，基线 RAG 流水线的误差传播因子为 1.43（误差放大 43%），而设计良好的多阶段系统可将传播因子降至 0.94（实现误差纠正而非放大）。

运行时回滚与重试

在步骤边界实现回滚和重试机制。当下游 agent 检测到与上游输出的不一致时，级联回滚请求并以扩展上下文或人工介入重试上游步骤。维护包含 agent 输出、置信分数和上下文假设的显式交接记录审计轨迹。

监控与治理参数

实时累积准确率监控

按事务路径而非按 agent 跟踪错误率，聚合事务级结果并与基线比较。建立异常检测机制，监控按 workflow 类型划分的无错误事务率分布。

最大工作流长度策略

为高风险决策类型建立最大 workflow 长度策略。例如，将 CMBS 发行 workflow 限制为最多 10 个顺序 agent 步骤；通过并行处理重新架构更长 workflow 以减少步骤数。

事后抽样验证

对已完成事务进行 5-10% 的系统抽样，针对源数据执行独立验证。建立事后审计反馈循环，将发现的错误反馈至 workflow 模型。

熔断机制

当任意步骤的累积错误率超过策略阈值时，使用 Kill Switch 暂停 workflow 执行，自动升级至人工审核。

实施检查清单

设计阶段：在部署前构建并验证聚合 workflow 准确率模型，使用贝叶斯网络等概率模型预测每种 workflow 配置的端到端失败率。
高后果结果验证：在高风险输出处实施步骤级验证门，要求人工审核或独立重新验证后方可进入下一步。
Blast Radius 计算：使用传播影响计算工具建模下游步骤检测到错误时的传播影响。
合规映射：确保监管框架从单 agent 评估扩展至复合 workflow 可靠性，建立每事务而非每 agent 的准确率要求。

复合误差传播不是模型质量问题，而是架构设计问题。提取 agentic AI 真实价值的团队并非拥有最准确模型的团队，而是设计了能够应对复合数学规律的工作流的团队。关键问题不是 "使用哪个模型"，而是 "这个 workflow 实际有多少步骤，以及我们处理复合误差的架构是什么"。

参考来源：

Tian Pan, "The Compound Hallucination Problem: How Multi-Stage AI Pipelines Amplify Errors" (2026)
Highland Edge, "The Compound Error Problem: Why 95% Accurate AI Agents Still Fail" (2026)
Corvair Risk Catalog R-MC-01: Compound Error Propagation

mlops

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。