Hotdry.

Article

复合AI系统的误差传播:从偏差-方差分解到多阶段流水线工程控制

多阶段AI流水线中误差呈指数级累积,单步99%准确率下20步 workflow 成功率仅36%。本文给出误差传播建模、自条件化效应的工程控制策略与可落地的监控参数。

2026-06-01mlops

当单个模型的准确率达到 95% 甚至 99% 时,工程团队往往认为系统已经足够可靠。然而,在多阶段 AI 流水线中,这种直觉会导致灾难性的误判。复合 AI 系统的核心风险不在于单点失效,而在于误差沿流水线非线性传播 —— 每个阶段无条件信任上游输出,使得微小偏差在下游被不断放大。

指数级衰减的数学现实

复合误差的数学规律简单却反直觉:对于 n 步顺序执行的工作流,若单步成功率为 p,则端到端成功率为 p^n。当单步准确率 95% 时,20 步 workflow 的整体成功率仅为 0.95^20≈36%;即便单步准确率高达 99%,100 步 workflow 的成功率也会暴跌至 36.6%。

这一规律在受监管行业中尤为危险。以商业抵押贷款证券化 (CMBS) 发行为例,一个典型的 workflow 包含 15 个顺序步骤:房产数据摄取、文件验证、产权确认、评估审核、环境筛查、借款人验证、财务报表分析、比率计算、压力测试、定价推导、招股说明书生成、监管披露汇编、SEC 文件组装、投资者通知和发行后报告。即使每个 agent 在测试集上达到 99% 准确率,500 笔交易中仍会有约 47 份招股书存在重大错报 —— 这足以触发 SEC 执法行动。

更严峻的是,实际 degradation 往往比简单乘法模型预测的更陡峭。研究表明存在自条件化效应:当语言模型处理包含自身错误的上下文时,后续步骤产生错误的概率会加速上升。模型倾向于在已有错误的前提下保持内部一致性,而非事实准确性。

误差放大的三大机制

检索 - 生成鸿沟

在 RAG 流水线中,47%-67% 的查询会出现生成器忽略检索器返回的顶级文档、转而依赖参数化记忆的现象。当检索器返回准确信息而生成器选择忽略时,生成的幻觉会被下游阶段当作 "已检索的 ground truth" 处理,导致检索机制完全失效。

子意图失序

Agentic 系统将复杂任务分解为顺序子任务,每个子任务依赖于前置任务的成功完成。当早期子任务产生幻觉输出 —— 如实体识别错误、API 调用结果伪造 —— 所有依赖子任务都在错误前提下运行。这种结构化错误传播通过依赖图扩散,而非随机噪声。

扩展推理放大

反直觉的是,更长的推理链会增加复合幻觉风险。当模型进行扩展思维链推理时,每个中间步骤都可能引入错误,而后续步骤会在此基础上继续构建。研究表明,增强的推理能力实际上可能放大工具幻觉率 —— 模型通过推理获得对错误答案的更高置信度。

工程控制策略

接缝边界验证门

在流水线阶段之间插入验证检查点,而非仅在最终输出处评估。核心设计原则包括:

  • 独立验证器:若 Stage 2 产生输出,不应由 Stage 2 自身验证。使用独立模型、确定性规则检查或结构化蕴含评分器,确保验证器不受生成上下文的影响。

  • 跨度级验证:在跨度级别而非文档级别验证声明,将具体声明追溯至源文档,标记未锚定在检索内容中的声明。

  • 原因编码门决策:验证门应输出结构化原因代码(如 "hallucinated_date"、"unsupported_claim"),而非简单的通过 / 失败,以便识别高频失败类型并针对性调优。

有范围上下文传递

仅向前传递相关上下文,而非完整累积历史。不感知 Stage 2 和 Stage 3 错误的 Stage 4 无法基于这些错误进行条件化。研究表明,基线 RAG 流水线的误差传播因子为 1.43(误差放大 43%),而设计良好的多阶段系统可将传播因子降至 0.94(实现误差纠正而非放大)。

运行时回滚与重试

在步骤边界实现回滚和重试机制。当下游 agent 检测到与上游输出的不一致时,级联回滚请求并以扩展上下文或人工介入重试上游步骤。维护包含 agent 输出、置信分数和上下文假设的显式交接记录审计轨迹。

监控与治理参数

实时累积准确率监控

按事务路径而非按 agent 跟踪错误率,聚合事务级结果并与基线比较。建立异常检测机制,监控按 workflow 类型划分的无错误事务率分布。

最大工作流长度策略

为高风险决策类型建立最大 workflow 长度策略。例如,将 CMBS 发行 workflow 限制为最多 10 个顺序 agent 步骤;通过并行处理重新架构更长 workflow 以减少步骤数。

事后抽样验证

对已完成事务进行 5-10% 的系统抽样,针对源数据执行独立验证。建立事后审计反馈循环,将发现的错误反馈至 workflow 模型。

熔断机制

当任意步骤的累积错误率超过策略阈值时,使用 Kill Switch 暂停 workflow 执行,自动升级至人工审核。

实施检查清单

  1. 设计阶段:在部署前构建并验证聚合 workflow 准确率模型,使用贝叶斯网络等概率模型预测每种 workflow 配置的端到端失败率。

  2. 高后果结果验证:在高风险输出处实施步骤级验证门,要求人工审核或独立重新验证后方可进入下一步。

  3. Blast Radius 计算:使用传播影响计算工具建模下游步骤检测到错误时的传播影响。

  4. 合规映射:确保监管框架从单 agent 评估扩展至复合 workflow 可靠性,建立每事务而非每 agent 的准确率要求。

复合误差传播不是模型质量问题,而是架构设计问题。提取 agentic AI 真实价值的团队并非拥有最准确模型的团队,而是设计了能够应对复合数学规律的工作流的团队。关键问题不是 "使用哪个模型",而是 "这个 workflow 实际有多少步骤,以及我们处理复合误差的架构是什么"。


参考来源

  • Tian Pan, "The Compound Hallucination Problem: How Multi-Stage AI Pipelines Amplify Errors" (2026)
  • Highland Edge, "The Compound Error Problem: Why 95% Accurate AI Agents Still Fail" (2026)
  • Corvair Risk Catalog R-MC-01: Compound Error Propagation

mlops

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com