AI 编码代理在原型开发阶段表现出色,但进入生产环境时往往暴露出系统性的工程能力缺失。它们倾向于选择最短路径前行,这一默认行为导致规格文档被跳过、测试用例不完整、安全审查形同虚设 —— 而这些恰恰是生产级软件可靠性的基石。Google Chrome 团队工程负责人 Addy Osmani 开源的 agent-skills 项目,正是为了解决这一根本性矛盾而设计。它将资深工程师在真实生产环境中积累的工作流、质量关卡和最佳实践,封装为 AI 代理可以遵循的结构化指令集。
技能体系的整体架构
agent-skills 项目将 AI 代理的工程技能组织为一条清晰的开发流水线,覆盖从需求定义到生产发布的完整生命周期。这条流水线被划分为六个阶段:Define(定义)、Plan(规划)、Build(构建)、Verify(验证)、Review(审查)、Ship(发布)。每个阶段对应特定的技能集合,代理可以根据当前正在执行的操作自动激活相应的技能模块。例如,当代理开始设计 API 时,系统会自动触发 api-and-interface-design 技能;当代理着手构建用户界面时,则激活 frontend-ui-engineering 技能。这种上下文感知的技能触发机制,确保代理始终在正确的工程上下文中工作。
为了降低使用门槛,项目提供了七个斜杠命令作为统一的入口点。/spec 命令启动规格驱动开发,要求代理在编写任何代码之前先完成产品需求文档;/plan 命令将规格拆解为可独立验证的原子任务;/build 命令强制代理以薄垂直切片的方式递增实现功能;/test 命令确保代理用测试用例来证明功能正确性;/review 命令在代码合并前执行五轴质量审查;/code-simplify 命令推动代理简化代码复杂度;/ship 命令则处理生产部署的各项检查清单。这些命令不仅降低了代理的学习成本,更重要的是,它们通过强制执行工程纪律来约束代理的默认行为。
二十项核心技能的详细解析
在六个阶段之下,agent-skills 精心设计了二十项核心技能,每项技能都遵循一致的结构:包含前置条件说明、使用场景触发条件、详细操作步骤、反理性化表格(即代理可能找借口跳过步骤时的反驳论据)、红 Flags 警示信号,以及最终的验证要求。这种标准化设计使得每项技能都具备可操作性、可验证性和可扩展性。
在 Define 阶段,idea-refine 技能采用结构化的发散 - 收敛思维模式,帮助代理将模糊的概念转化为具体的需求提案。spec-driven-development 技能则强制执行规格优先原则,要求代理在编写任何代码之前,先完成包含目标、命令、结构、代码风格、测试策略和边界条件的产品需求文档。这两项技能共同解决了 AI 代理最容易犯的错误之一 —— 在尚未理解需求全貌时就急于动手编码。
在 Plan 阶段,planning-and-task-breakdown 技能将规格文档分解为具有明确验收标准和依赖顺序的小型可验证任务。该技能强调任务的原子性,每个任务应该可以在单一迭代中完成、测试并提交。这为后续的增量实现奠定了基础。
Build 阶段是技能最为密集的环节,包含七项核心能力。incremental-implementation 技能强制代理采用薄垂直切片的方式实现功能,每次变更都应该是可独立部署和回滚的。test-driven-development 技能嵌入了红 - 绿 - 重构的 TDD 循环、测试金字塔模型(80% 单元测试、15% 集成测试、5% 端到端测试),以及 Beyonce 规则(“如果 Beyoncé 修改了你的代码,她能看懂吗?”)。context-engineering 技能教导代理如何在正确的时机获取正确的信息,包括规则文件、上下文打包和 MCP 集成。source-driven-development 技能则要求代理在做任何框架决策时,都必须参考官方文档并注明来源。frontend-ui-engineering 和 api-and-interface-design 技能分别处理前端界面设计和 API 契约设计的专业领域知识。
Verify 阶段的技能聚焦于运行时验证。browser-testing-with-devtools 技能利用 Chrome DevTools MCP 获取实时运行数据,包括 DOM 检查、控制台日志、网络请求追踪和性能分析。debugging-and-error-recovery 技能则建立了五步排查流程:复现问题、定位范围、简化案例、修复缺陷、添加防护。这两项技能共同确保代理能够在真实运行环境中验证其工作成果。
Review 阶段是质量关卡的核心。code-review-and-quality 技能引入了五轴审查标准,从正确性、安全性、性能、可维护性和可测试性五个维度评估代码。code-simplification 技能嵌入了 Chesterton’s Fence 原则(修改前必须先理解为什么存在)和 500 行规则(单个文件不应超过 500 行)。security-and-hardening 技能覆盖了 OWASP Top 10 防护、认证模式、密钥管理和依赖审计。performance-optimization 技能则强调以测量为先的方法,设置 Core Web Vitals 目标和性能回归检测。
在 Ship 阶段,git-workflow-and-versioning 技能强制执行基于主干的开发模式,要求每次提交都是原子性的且大小控制在约 100 行以内。ci-cd-and-automation 技能推行左移策略,将质量关卡前移到持续集成阶段。deprecation-and-migration 技能将代码视为负债,建立了废弃代码的迁移模式和清理机制。documentation-and-adrs 技能要求代理记录架构决策背后的 “为什么”,而非仅仅描述 “是什么”。shipping-and-launch 技能则处理发布前的检查清单、功能开关生命周期、分阶段发布和回滚程序。
跨平台集成与实践建议
agent-skills 项目设计之初就考虑了多平台的兼容性。目前支持的 IDE 和代理工具包括 Claude Code(推荐)、Cursor、 Gemini CLI、Windsurf、OpenCode、GitHub Copilot 和 Kiro。对于 Claude Code,用户可以通过插件市场直接安装;对于 Cursor,可以将技能文件复制到 .cursor/rules 目录;对于 Gemini CLI,则可以通过原生的 skills 命令进行安装。这种灵活的集成方式使得团队可以根据现有工具链选择合适的接入点,而无需大规模迁移。
在实践中,有几个关键要点值得关注。首先,技能的反理性化设计是整个体系的精髓所在。每项技能都预置了代理可能采用的借口列表,并提供了经过实战检验的反驳论据。例如,当代理试图跳过测试时,系统会提醒 “测试是证明,而非可选步骤”;当代理想当然地认为代码无需文档时,系统会强调 “代码是写给机器看的,文档是写给人看的”。其次,验证不可协商原则是保证工程质量的关键防线。技能要求代理在每个阶段都必须提供可验证的证据 —— 测试通过的输出、构建成功的日志、运行时性能数据 —— 而非仅仅声称 “看起来是对的”。
从工程实践的角度看,agent-skills 项目最核心的价值在于它将 Google 多年来在软件工程领域积累的隐性知识进行了显性化编码。Hyrum's Law(API 一旦发布,就会有用户依赖其所有行为)、Beyonce 规则、测试金字塔、左移策略、基于主干的开发模式 —— 这些在 Google 内部被反复验证的工程实践,通过 agent-skills 变得可以被 AI 代理系统性地执行。对于正在构建 AI 增强开发工具的团队而言,这套技能体系提供了一个可参考的工程化框架,帮助代理从 “能写代码” 进化到 “能写生产级代码”。
资料来源:本文核心事实来自 Addy Osmani 开源的 agent-skills 仓库,项目采用 MIT 许可证,可免费使用。