当单个模型的准确率达到 95% 甚至 99% 时,工程团队往往认为系统已经足够可靠。然而,在多阶段 AI 流水线中,这种直觉会导致灾难性的误判。复合 AI 系统的核心风险不在于单点失效,而在于误差沿流水线非线性传播 —— 每个阶段无条件信任上游输出,使得微小偏差在下游被不断放大。
指数级衰减的数学现实
复合误差的数学规律简单却反直觉:对于 n 步顺序执行的工作流,若单步成功率为 p,则端到端成功率为 p^n。当单步准确率 95% 时,20 步 workflow 的整体成功率仅为 0.95^20≈36%;即便单步准确率高达 99%,100 步 workflow 的成功率也会暴跌至 36.6%。
这一规律在受监管行业中尤为危险。以商业抵押贷款证券化 (CMBS) 发行为例,一个典型的 workflow 包含 15 个顺序步骤:房产数据摄取、文件验证、产权确认、评估审核、环境筛查、借款人验证、财务报表分析、比率计算、压力测试、定价推导、招股说明书生成、监管披露汇编、SEC 文件组装、投资者通知和发行后报告。即使每个 agent 在测试集上达到 99% 准确率,500 笔交易中仍会有约 47 份招股书存在重大错报 —— 这足以触发 SEC 执法行动。
更严峻的是,实际 degradation 往往比简单乘法模型预测的更陡峭。研究表明存在自条件化效应:当语言模型处理包含自身错误的上下文时,后续步骤产生错误的概率会加速上升。模型倾向于在已有错误的前提下保持内部一致性,而非事实准确性。
误差放大的三大机制
检索 - 生成鸿沟
在 RAG 流水线中,47%-67% 的查询会出现生成器忽略检索器返回的顶级文档、转而依赖参数化记忆的现象。当检索器返回准确信息而生成器选择忽略时,生成的幻觉会被下游阶段当作 "已检索的 ground truth" 处理,导致检索机制完全失效。
子意图失序
Agentic 系统将复杂任务分解为顺序子任务,每个子任务依赖于前置任务的成功完成。当早期子任务产生幻觉输出 —— 如实体识别错误、API 调用结果伪造 —— 所有依赖子任务都在错误前提下运行。这种结构化错误传播通过依赖图扩散,而非随机噪声。
扩展推理放大
反直觉的是,更长的推理链会增加复合幻觉风险。当模型进行扩展思维链推理时,每个中间步骤都可能引入错误,而后续步骤会在此基础上继续构建。研究表明,增强的推理能力实际上可能放大工具幻觉率 —— 模型通过推理获得对错误答案的更高置信度。
工程控制策略
接缝边界验证门
在流水线阶段之间插入验证检查点,而非仅在最终输出处评估。核心设计原则包括:
-
独立验证器:若 Stage 2 产生输出,不应由 Stage 2 自身验证。使用独立模型、确定性规则检查或结构化蕴含评分器,确保验证器不受生成上下文的影响。
-
跨度级验证:在跨度级别而非文档级别验证声明,将具体声明追溯至源文档,标记未锚定在检索内容中的声明。
-
原因编码门决策:验证门应输出结构化原因代码(如 "hallucinated_date"、"unsupported_claim"),而非简单的通过 / 失败,以便识别高频失败类型并针对性调优。
有范围上下文传递
仅向前传递相关上下文,而非完整累积历史。不感知 Stage 2 和 Stage 3 错误的 Stage 4 无法基于这些错误进行条件化。研究表明,基线 RAG 流水线的误差传播因子为 1.43(误差放大 43%),而设计良好的多阶段系统可将传播因子降至 0.94(实现误差纠正而非放大)。
运行时回滚与重试
在步骤边界实现回滚和重试机制。当下游 agent 检测到与上游输出的不一致时,级联回滚请求并以扩展上下文或人工介入重试上游步骤。维护包含 agent 输出、置信分数和上下文假设的显式交接记录审计轨迹。
监控与治理参数
实时累积准确率监控
按事务路径而非按 agent 跟踪错误率,聚合事务级结果并与基线比较。建立异常检测机制,监控按 workflow 类型划分的无错误事务率分布。
最大工作流长度策略
为高风险决策类型建立最大 workflow 长度策略。例如,将 CMBS 发行 workflow 限制为最多 10 个顺序 agent 步骤;通过并行处理重新架构更长 workflow 以减少步骤数。
事后抽样验证
对已完成事务进行 5-10% 的系统抽样,针对源数据执行独立验证。建立事后审计反馈循环,将发现的错误反馈至 workflow 模型。
熔断机制
当任意步骤的累积错误率超过策略阈值时,使用 Kill Switch 暂停 workflow 执行,自动升级至人工审核。
实施检查清单
-
设计阶段:在部署前构建并验证聚合 workflow 准确率模型,使用贝叶斯网络等概率模型预测每种 workflow 配置的端到端失败率。
-
高后果结果验证:在高风险输出处实施步骤级验证门,要求人工审核或独立重新验证后方可进入下一步。
-
Blast Radius 计算:使用传播影响计算工具建模下游步骤检测到错误时的传播影响。
-
合规映射:确保监管框架从单 agent 评估扩展至复合 workflow 可靠性,建立每事务而非每 agent 的准确率要求。
复合误差传播不是模型质量问题,而是架构设计问题。提取 agentic AI 真实价值的团队并非拥有最准确模型的团队,而是设计了能够应对复合数学规律的工作流的团队。关键问题不是 "使用哪个模型",而是 "这个 workflow 实际有多少步骤,以及我们处理复合误差的架构是什么"。
参考来源:
- Tian Pan, "The Compound Hallucination Problem: How Multi-Stage AI Pipelines Amplify Errors" (2026)
- Highland Edge, "The Compound Error Problem: Why 95% Accurate AI Agents Still Fail" (2026)
- Corvair Risk Catalog R-MC-01: Compound Error Propagation
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。