当大多数人将 AI 编程工具视为 "快速产出低质量代码的 slop cannon" 时,一种反向实践正在浮现:利用大语言模型的灵活性,刻意放慢节奏,追求更高质量的代码产出。这种 "慢速 AI 编程" 并非效率低下,而是一种结构化、可复现的认知工作流,核心在于通过精心设计的提示工程与增量验证策略,将人类的认知负荷从 "快速决策" 转移到 "深度理解"。
多模型并行审查:降低幻觉的结构化提示
单一模型审查的最大风险在于幻觉与确认偏误。研究表明,即便是最强的 Claude Opus 4.6,在独立审查时也只能发现约 53% 的已知 bug。解决方案是构建多模型并行审查的技能(skill),让不同模型相互验证。
一个可落地的审查技能模板如下:
运行Claude子代理、Codex和Cursor Bugbot并行查找此PR中的bug,按critical/high/medium/low分级。待所有代理完成后,审查它们的发现,独立研究以排除误报,输出最终报告。
关键设计原则在于主代理延迟介入—— 在所有子代理返回结果前,主代理不应进行原创研究。这避免了认知锚定效应,防止被第一个返回的结果带偏方向。正如 Nolan Lawson 的实践所示,这种多模型协作的误报率接近零,且能发现从关键安全漏洞到 "注释具有误导性" 的各类问题。
对于资源受限的团队,Claude 与 Gemini 的双模型组合可覆盖约 91% 的五模型上限。Claude 擅长系统级 bug 与深层逻辑,Gemini 则在并发竞态与兼容性问题上表现突出,两者能力互补。
认知负荷管理:分级处理与跳过策略
面对多模型审查产出的大量 bug,人类的认知负荷会迅速过载。因此需要建立明确的分级处理策略:
Critical/High 级别:必须修复。使用 AI 代理在人工指导下修复,然后重新审查,直到无关键级别 bug 为止。
Medium/Low 级别:评估修复成本。如果修复需要 100 行代码仅解决一个狭窄的边缘情况,则明确跳过。这种 "成本 - 收益" 权衡是认知负荷管理的核心 —— 不是每个 bug 都值得修复。
PR 级别决策:如果 critical bug 数量过多,表明整体方案存在设计缺陷,应果断放弃该 PR。这比在错误的方向上投入更多资源更为明智。
这种分级策略的本质是将决策权保留在人类手中,AI 负责信息收集与初步筛选,人类负责价值判断与方向决策。
增量验证:多轮辩论与证据锚定
单一轮次的审查容易遗漏需要系统级理解的深层 bug。研究表明,经过 5 轮对抗性辩论,bug 检测率可从 53% 提升至 80%,其中 L3 级系统 bug 的检测率达到 100%。
辩论机制的核心规则是证据锚定:每个声明必须指向具体代码行作为证据,不能简单说 "好观点" 或 "我同意"。这种强制性的证据要求迫使模型深入代码细节,而非停留在抽象层面的泛泛而谈。
具体实施时,可采用以下流程:
- 第一轮:各模型独立审查 PR
- 后续轮次:所有模型看到其他模型的审查结果,更新自己的立场
- 最终轮:主模型综合所有观点,输出带有代码引用的最终报告
这种增量验证不仅提高了 bug 发现率,更重要的是帮助开发者理解代码的失效模式 —— 正如实践者所观察到的,"复杂架构的快乐路径不如其失效模式有趣"。
深度理解工具:文档生成与自我拷问
慢速编程的另一关键是确保开发者真正理解 AI 生成的代码。为此,可引入两种辅助工具:
Mermaid 图表生成:要求 AI 为 PR 生成 Markdown 文档,包含 Mermaid 流程图,可视化代码执行路径与数据流。图形化的表达比纯文本更容易发现逻辑漏洞。
/grill-me技能:使用类似 Matt Pocock 的 grill-me 技能,让 AI 持续提问直到开发者能完整解释 PR 的每一部分 —— 包括它如何工作、如何失效、边界情况是什么。这种 "自我拷问" 式的交互强制建立深度理解,而非表面认知。
实施清单与参数建议
对于希望尝试慢速 AI 编程的团队,以下是一份可落地的实施清单:
提示工程参数:
- 并行模型数:2-3 个(Claude+Gemini 为性价比最优组合)
- 审查轮次:3-5 轮辩论
- 上下文准备:使用工具自动拉取调用链与相关模块(R1 模式)
分级阈值:
- Critical:安全漏洞、正确性问题,必须修复
- High:性能问题、可访问性缺陷,建议修复
- Medium/Low:评估修复成本,允许跳过
质量门禁:
- PR 中 critical bug 数量 > 3:触发方案重审
- 单轮审查时间 > 30 分钟:考虑拆分 PR
认知负荷控制:
- 每次只处理一个级别的 bug
- 使用 AI 生成文档与图表辅助理解
- 定期清理上下文,避免信息过载
结语
慢速 AI 编程不是对效率的妥协,而是对质量的刻意追求。它承认一个事实:AI 生成的代码只是第一稿,真正的工程工作始于审查与理解。通过结构化的多模型审查、分级认知负荷管理与增量验证策略,开发者可以在不牺牲代码质量的前提下,利用 AI 放大自身的深度思考能力。这种方法可能不会让你在 "代码行数 / 天" 的指标上领先,但它会让你对自己提交的每一行代码都有信心 —— 而这正是可持续工程实践的基础。
参考来源:
- Nolan Lawson, "Using AI to write better code more slowly", 2026-05-25
- Milvus Blog, "AI code review gets better when models debate", 多模型辩论实验研究
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。