刻意慢速的AI编程：结构化提示工程与认知负荷管理工作流

当大多数人将 AI 编程工具视为 "快速产出低质量代码的 slop cannon" 时，一种反向实践正在浮现：利用大语言模型的灵活性，刻意放慢节奏，追求更高质量的代码产出。这种 "慢速 AI 编程" 并非效率低下，而是一种结构化、可复现的认知工作流，核心在于通过精心设计的提示工程与增量验证策略，将人类的认知负荷从 "快速决策" 转移到 "深度理解"。

多模型并行审查：降低幻觉的结构化提示

单一模型审查的最大风险在于幻觉与确认偏误。研究表明，即便是最强的 Claude Opus 4.6，在独立审查时也只能发现约 53% 的已知 bug。解决方案是构建多模型并行审查的技能（skill），让不同模型相互验证。

一个可落地的审查技能模板如下：

运行Claude子代理、Codex和Cursor Bugbot并行查找此PR中的bug，按critical/high/medium/low分级。待所有代理完成后，审查它们的发现，独立研究以排除误报，输出最终报告。

关键设计原则在于主代理延迟介入—— 在所有子代理返回结果前，主代理不应进行原创研究。这避免了认知锚定效应，防止被第一个返回的结果带偏方向。正如 Nolan Lawson 的实践所示，这种多模型协作的误报率接近零，且能发现从关键安全漏洞到 "注释具有误导性" 的各类问题。

对于资源受限的团队，Claude 与 Gemini 的双模型组合可覆盖约 91% 的五模型上限。Claude 擅长系统级 bug 与深层逻辑，Gemini 则在并发竞态与兼容性问题上表现突出，两者能力互补。

认知负荷管理：分级处理与跳过策略

面对多模型审查产出的大量 bug，人类的认知负荷会迅速过载。因此需要建立明确的分级处理策略：

Critical/High 级别：必须修复。使用 AI 代理在人工指导下修复，然后重新审查，直到无关键级别 bug 为止。

Medium/Low 级别：评估修复成本。如果修复需要 100 行代码仅解决一个狭窄的边缘情况，则明确跳过。这种 "成本 - 收益" 权衡是认知负荷管理的核心 —— 不是每个 bug 都值得修复。

PR 级别决策：如果 critical bug 数量过多，表明整体方案存在设计缺陷，应果断放弃该 PR。这比在错误的方向上投入更多资源更为明智。

这种分级策略的本质是将决策权保留在人类手中，AI 负责信息收集与初步筛选，人类负责价值判断与方向决策。

增量验证：多轮辩论与证据锚定

单一轮次的审查容易遗漏需要系统级理解的深层 bug。研究表明，经过 5 轮对抗性辩论，bug 检测率可从 53% 提升至 80%，其中 L3 级系统 bug 的检测率达到 100%。

辩论机制的核心规则是证据锚定：每个声明必须指向具体代码行作为证据，不能简单说 "好观点" 或 "我同意"。这种强制性的证据要求迫使模型深入代码细节，而非停留在抽象层面的泛泛而谈。

具体实施时，可采用以下流程：

第一轮：各模型独立审查 PR
后续轮次：所有模型看到其他模型的审查结果，更新自己的立场
最终轮：主模型综合所有观点，输出带有代码引用的最终报告

这种增量验证不仅提高了 bug 发现率，更重要的是帮助开发者理解代码的失效模式 —— 正如实践者所观察到的，"复杂架构的快乐路径不如其失效模式有趣"。

深度理解工具：文档生成与自我拷问

慢速编程的另一关键是确保开发者真正理解 AI 生成的代码。为此，可引入两种辅助工具：

Mermaid 图表生成：要求 AI 为 PR 生成 Markdown 文档，包含 Mermaid 流程图，可视化代码执行路径与数据流。图形化的表达比纯文本更容易发现逻辑漏洞。

/grill-me技能：使用类似 Matt Pocock 的 grill-me 技能，让 AI 持续提问直到开发者能完整解释 PR 的每一部分 —— 包括它如何工作、如何失效、边界情况是什么。这种 "自我拷问" 式的交互强制建立深度理解，而非表面认知。

实施清单与参数建议

对于希望尝试慢速 AI 编程的团队，以下是一份可落地的实施清单：

提示工程参数：

并行模型数：2-3 个（Claude+Gemini 为性价比最优组合）
审查轮次：3-5 轮辩论
上下文准备：使用工具自动拉取调用链与相关模块（R1 模式）

分级阈值：

Critical：安全漏洞、正确性问题，必须修复
High：性能问题、可访问性缺陷，建议修复
Medium/Low：评估修复成本，允许跳过

质量门禁：

PR 中 critical bug 数量 > 3：触发方案重审
单轮审查时间 > 30 分钟：考虑拆分 PR

认知负荷控制：

每次只处理一个级别的 bug
使用 AI 生成文档与图表辅助理解
定期清理上下文，避免信息过载

结语

慢速 AI 编程不是对效率的妥协，而是对质量的刻意追求。它承认一个事实：AI 生成的代码只是第一稿，真正的工程工作始于审查与理解。通过结构化的多模型审查、分级认知负荷管理与增量验证策略，开发者可以在不牺牲代码质量的前提下，利用 AI 放大自身的深度思考能力。这种方法可能不会让你在 "代码行数 / 天" 的指标上领先，但它会让你对自己提交的每一行代码都有信心 —— 而这正是可持续工程实践的基础。

参考来源：

Nolan Lawson, "Using AI to write better code more slowly", 2026-05-25
Milvus Blog, "AI code review gets better when models debate", 多模型辩论实验研究

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。