Ralph 自主循环机制：PRD 完成驱动的自动化执行模型

在 AI 辅助编程工具日益成熟的今天，如何让 AI agent 能够自主完成复杂任务而非依赖人工逐轮审批，成为工程效率提升的关键课题。Ralph 框架提出了一种简洁而有效的解决方案：通过产品需求文档（PRD）中的完成状态驱动自动化循环，实现真正意义上的自主执行。本文将深入解析其核心机制、工程实现与实践要点。

自主循环的核心设计理念

Ralph 的设计灵感来源于 Geoffrey Huntley 提出的「Ralph Loop」概念，其核心思想是将软件工程任务转化为一个确定性循环：AI agent 根据任务描述执行工作，检查完成条件，如果不满足则继续迭代，直到所有条件达成后自动退出。这种模式从根本上改变了人机协作的交互范式 —— 从「人类逐轮审批」转变为「机器自主执行 + 条件触发退出」。

与传统的 tool orchestration（如 Hermes Agent 的工具编排）或者 task scheduling（如 Multica 的任务调度）不同，Ralph 聚焦于 autonomous loop 层面：它不关心如何组合使用工具，也不关心如何分配任务时间，而是专注于解决「如何让 AI 在没有人类干预的情况下持续工作直到任务完成」这一根本性问题。框架通过 PRD 中的 passes 字段作为完成状态的锚点，每次迭代选取最高优先级的未完成项执行，形成了一种「任务清单驱动」的自主执行模型。

PRD 完成状态驱动的工作流程

Ralph 的完整工作流程包含三个核心阶段。首先是 PRD 创建阶段：开发者使用内置的 PRD skill 生成详细的需求文档，回答一系列澄清问题后，skill 将输出保存为 tasks/prd-[feature-name].md 文件。这个阶段确保了需求的完整性和清晰性，为后续自动化执行奠定了基础。

第二个阶段是格式转换。PRD 文档是面向人类的 markdown 格式，而 Ralph 需要结构化的任务清单来驱动循环。Ralph skill 负责将 markdown 格式的 PRD 转换为 prd.json 文件，该文件包含用户故事（user stories）数组，每个故事都有唯一的 id、优先级、passes 状态（布尔值）以及验收标准。转换过程本质上是对需求进行「可执行化」处理，使得循环能够据此判断任务完成状态。

第三个阶段是自主循环执行。运行 ./scripts/ralph/ralph.sh 后，Ralph 按照以下逻辑迭代：首先从 prd.json 中选取 passes 为 false 且优先级最高的故事；然后创建一个全新的 AI 编码工具实例（Amp 或 Claude Code），将故事描述和上下文信息注入；AI 执行编码、运行质量检查（类型检查、测试）；如果检查通过，更新 prd.json 将该故事的 passes 设为 true，并追加学习记录到 progress.txt；最后检查是否所有故事都已完成，若全部通过则输出 <promise>COMPLETE</promise> 并退出循环，否则继续下一轮迭代。

这种设计的精妙之处在于：每次迭代都是独立的新实例，拥有干净的上下文。这是避免「上下文污染」的关键策略 —— 传统长周期 agent 会累积大量中间状态，导致后续决策质量下降。Ralph 通过让每次循环「从零开始」，只依赖外部持久化的状态（git 历史、progress.txt、prd.json），实现了稳定可持续的自主执行。

记忆持久化与上下文管理

Ralph 的记忆机制是其自主能力的基石。与其在 agent 内部维护复杂的状态机，不如利用成熟的文件系统作为记忆载体。框架主要依赖三种记忆形式：

Git 历史是最重要的长期记忆。每次迭代通过 git commit 保存代码变更，这意味着后续迭代可以通过 git log 了解「之前做了什么」。Git 的分支模型也被用于隔离 ——Ralph 会为每个功能创建独立的 feature 分支，避免不同任务的代码相互污染。

progress.txt 是迭代过程中的学习记录。这是一个追加写入的文件，AI 可以在每次迭代后向其中写入「学到的模式」「踩过的坑」「需要注意的约定」等信息。例如：「这个代码库使用 X 做 Y，修改 Z 时必须同步更新 W」。这些信息会被后续迭代读取，形成「经验积累」的环路。

prd.json 本身也是关键的状态记忆。它不仅是任务清单，更是循环的「进度仪表盘」。通过 jq '.userStories[] | {id, title, passes}' 可以随时查看当前进度，这种透明的进度追踪对于长时间运行的自主任务至关重要。

小任务原则与上下文窗口优化

Ralph 文档中特别强调了「小任务原则」：每个 PRD 项都应该小到可以在一个上下文窗口（context window）内完成。这一原则背后有深刻的工程考量。如果任务过大，AI 会在上下文耗尽前无法完成编码，导致输出不完整或质量下降。更重要的是，大任务会延长单次迭代时间，增加失败重试的成本，降低整体效率。

具体而言，适合 Ralph 执行的故事包括：添加数据库列和迁移、在现有页面上添加 UI 组件、更新 server action 的业务逻辑、在列表页添加筛选下拉框等。而「构建整个仪表板」「添加身份认证」「重构整个 API」这类过大需求必须拆分。拆分策略是让 AI 自主执行的前提 ——PRD 的粒度直接决定了循环能否顺利运转。

此外，Ralph 还支持「上下文自动交接」（auto handoff）机制。当在 ~/.config/amp/settings.json 中配置 "amp.experimental.autoHandoff": { "context": 90 } 后，当上下文使用率达到 90% 时会自动交接给新的实例继续执行，使得超长任务也能被分解处理。

质量门禁与反馈回路

自主循环的稳健运行离不开严格的质量门禁。Ralph 依赖三类反馈回路确保代码质量：

类型检查（typecheck）是第一道防线。TypeScript、Python 等静态类型语言的类型检查器能够捕获大多数明显错误，防止「带病」的代码进入提交。Ralph 的 prompt 模板中默认包含类型检查命令，任何类型错误都会导致该轮迭代失败并重试。

测试验证是第二道防线。单元测试、集成测试提供了行为层面的保障。Ralph 会自动运行项目的测试套件，测试失败意味着该轮迭代未能满足验收标准，必须修复后重试。

CI 状态是第三道防线。Ralph 假设项目维护了持续集成流水线，每次提交都会触发构建和测试。CI 必须保持绿色 —— 如果因为某次提交导致 CI 失败，后续迭代会继续在「带病」的代码基础上工作，导致问题叠加，陷入恶性循环。

对于 UI 相关的故事，Ralph 还引入了 浏览器验证机制。验收标准中需要包含「使用 dev-browser skill 在浏览器中验证」这一步骤，Ralph 会调用该 skill 导航到目标页面、操作 UI 元素、确认变化生效。这解决了纯文本环境难以验证视觉交互的问题。

工程落地的关键实践

将 Ralph 投入实际项目使用时，有几个关键实践值得注意。

AGENTS.md 的持续更新是提升迭代效率的核心。每次迭代后，AI 应该将发现的项目特定模式、常见陷阱、代码约定等信息写入相关的 AGENTS.md 文件。这些文件会被 AI 编码工具自动读取，相当于为后续迭代提供「项目知识手册」。例如：「本项目使用 Tailwind CSS 做样式」「API 错误处理统一返回 422 状态码」「组件放在 components/ 目录下」等。

迭代次数的合理设置需要根据任务复杂度权衡。默认的 10 次迭代适合中小型功能，但对于较大的功能可能需要增加。可以通过 ./scripts/ralph/ralph.sh 20 这样的方式显式指定迭代上限。设置过少可能导致任务未完成就退出，设置过多则可能陷入「死循环」—— 此时需要检查任务拆分是否合理、反馈回路是否有效。

调试与监控方面，Ralph 提供了便捷的状态查看命令。通过 cat prd.json | jq '.userStories[] | {id, title, passes}' 可以快速定位当前卡在哪一个故事；通过 cat progress.txt 可以了解历史迭代的学习记录；通过 git log --oneline -10 可以追踪代码演进历史。这些工具使得长时间运行的自主任务变得可观测、可追溯。

rompt 模板的定制化是适配不同技术栈的关键。复制到项目的 prompt.md 或 CLAUDE.md 需要根据具体项目修改：添加项目专属的质量检查命令（如 npm run typecheck、cargo clippy）、包含代码库约定（如目录结构、命名规范）、写入常见陷阱提醒（如「修改数据库 schema 必须同时写迁移」）。定制化程度越高，AI 的执行效率和质量越高。

适用场景与局限性

Ralph 最适合的场景是需求明确、可以拆分、可自动化验证的功能开发。典型的例子包括：数据表结构变更及对应的 CRUD 接口、现有页面的功能迭代、配置项的调整与扩展等。这类任务的共同特点是：需求可以用结构化条目描述，每个条目可以独立完成且有明确的验收标准。

然而，Ralph 也有其局限性。首先，对于需求本身不清晰或频繁变化的任务，PRD 驱动的模式难以应对 —— 每次需求变更都需要手动更新 prd.json。其次，对于需要大量人工探索和试错的设计类任务（如「设计一个全新的交互范式」），自主循环的效率可能不如人类直接介入。最后，Ralph 假设了完整的质量门禁（测试、类型检查、CI），如果项目缺乏这些基础设施，自主执行的风险会显著增加。

小结

Ralph 框架通过 PRD 完成状态驱动的自主循环，为 AI 辅助编程提供了一种新的执行范式。其核心价值在于：将「任务完成」的定义外化为 prd.json 中的 passes 状态，将「循环执行」的过程抽象为 bash 脚本的确定性逻辑，将「记忆积累」托付给文件系统而非 agent 内部状态。这种设计既简洁又 Robust—— 没有复杂的编排层，没有昂贵的状态管理，只有「任务清单 + 循环 + 质量门禁」的纯粹组合。

对于工程团队而言，引入 Ralph 的关键不在于工具本身，而在于重新审视任务的「可自主化」前提：需求是否足够清晰、任务是否可以拆分、质量门禁是否完善。当这些前提满足时，Ralph 能够显著释放人力资源，让人类聚焦于更高层次的设计与决策，而非陷入「AI 写代码，人工审批」的繁琐循环。

资料来源：

Ralph 官方仓库：https://github.com/snarktank/ralph
Geoffrey Huntley Ralph Loop 概念：https://ghuntley.com/loop/