速度崇拜的陷阱
当前 AI 编程领域的主流叙事围绕着 "10 倍生产力" 展开 —— 用 LLM 快速生成数百行代码、批量提交 PR、追求交付速度的最大化。这种 "氛围编程"(vibe coding)模式确实能在短期内提升代码产出量,但代价往往是代码质量的系统性下降。
Nolan Lawson 在 Socket 的实践中提出了一个反直觉的观点:AI 的价值不仅在于加速代码生成,更在于帮助我们以慢节奏写出更高质量的代码。这一理念并非否定 AI 的效率优势,而是主张将 LLM 的灵活性用于深度代码审查而非简单的代码生成。
多模型交叉验证:从单一判断到共识机制
传统 AI 代码审查的误区在于依赖单一模型的一次性输出。Lawson 的实践表明,引入多模型辩论机制能显著降低幻觉和误报率。具体做法是并行调用 Claude 子 agent、Codex 和 Cursor Bugbot,分别对同一 PR 进行独立审查,然后由主 agent 综合各方发现,进行交叉验证后再输出最终报告。
这种多模型策略的核心在于消除单一模型的偏见和盲区。不同模型在代码理解、安全审计、性能优化等维度各有侧重,通过并行审查可以覆盖更全面的问题类型。关键操作细节是:主 agent 必须等待所有子 agent 返回后再进行独立研究,避免被第一个结果先入为主地影响判断。
实践中,这种审查模式会按 critical/high/medium/low 四级对 bug 进行分类。Critical 级别通常涉及安全漏洞或逻辑正确性问题,必须修复至清零;high 级别包括性能瓶颈和架构缺陷;medium/low 则涵盖代码风格、注释准确性等次要问题。
慢速开发的工作流设计
采用质量优先的 AI 辅助开发,意味着接受一个反常识的现实:审查过程往往会发现大量 pre-existing bugs—— 即 PR 之前就存在的代码缺陷。这会将开发者引入修复历史遗留问题的 "支线任务",导致当前功能的交付时间延长。
Lawson 的典型工作流包括以下决策节点:
- 首轮修复:让 agent 在指导下修复所有 critical 和 high 级别问题,循环直至清零
- 成本收益评估:对修复成本过高(如需改动 100 行代码仅修复边缘场景)的 medium/low 问题选择性跳过
- 方案否决机制:当 critical 问题过多时,果断放弃当前 PR 方案,重新审视整体架构设计
- 上下文重置:在多次审查迭代间清除对话上下文,减少模型对之前结论的路径依赖
这种工作流的一个显著特征是产出度量方式的转变。代码行数或 PR 数量不再是核心指标,取而代之的是代码库健康度的提升和开发者对系统深层逻辑的理解深度。
质量投资的长期回报
慢速 AI 编程的回报体现在三个层面:
技术债务控制:通过系统性发现现有代码中的隐患,阻止技术债务的指数级累积。相比事后救火,在代码入库前进行严格审查的成本要低得多。
知识沉淀:当 agent 被要求解释 PR 的工作原理和潜在失败模式时,开发者被迫深入理解代码的边界条件和异常处理路径。这种 "grill-me" 式的追问比单纯阅读代码更能促进知识内化。
可维护性提升:符合 KISS 和 DRY 原则的代码、带有正确索引的 SQL 查询、可访问性达标的 HTML/JSX—— 这些细节在长期维护中会产生复利效应。
可落地的实践清单
对于希望尝试慢速 AI 编程的团队,以下策略可以直接应用:
- 架构可视化:要求 agent 使用 Mermaid 语法生成代码架构图,强制梳理组件间依赖关系
- 多视角审查:为跨领域 PR(涉及前端、后端、基础设施)分配不同专长的模型 agent,提升审查深度
- 失败模式分析:在代码合并前,让 agent 模拟 "这段代码会在什么场景下失败",补充测试用例
- 渐进式采纳:先在核心模块或安全敏感代码上试点,逐步扩展至全代码库
需要警惕的是,这种模式对 token 消耗和开发者耐心都有较高要求。在业务压力较大的 sprint 周期中,团队需要明确哪些模块适用深度审查,哪些可以暂时接受快速迭代。
结语
AI 辅助编程的质量 - 速度权衡不是一个非此即彼的选择,而是关于何时慢下来、如何有效利用 AI 的深度理解能力的策略问题。当行业还在追逐代码生成速度时,那些愿意用多模型审查换取代码健康度的团队,或许正在建立更可持续的技术优势。
参考来源
- Nolan Lawson, "Using AI to write better code more slowly", 2026-05-25
- Anthropic Research, Mythos project (glasswing update)
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。