基于真实 PR 的 CLAUDE.md 效果评估：mdarena 方法论与关键指标

在实际工程中，Claude.md 类指令文件的效果往往缺乏量化评估手段。多数团队依赖主观感受判断指令文件是否「有效」，但 Research 表明，CLAUDE.md 文件在许多情况下反而会降低智能体的成功率并增加 20% 以上的 token 消耗。mdarena 提供了一种基于真实 Pull Request 的基准测试方法，将指令文件的效果与代码库的实际变更进行对齐评估，为团队优化 AI 编码助手指令提供了可量化的决策依据。

核心方法论：从代码变更到评估基准

mdarena 的设计思路借鉴了 SWE-bench 的评估范式，但将任务来源从公开基准数据集替换为团队自身的代码历史。具体而言，工具通过三个核心阶段完成评估流程：

任务挖掘阶段 (mdarena mine)：从指定的 GitHub 仓库中提取已合并的 PR，解析其关联的提交记录、文件变更和测试命令。每个 PR 被转化为一个独立的任务单元，包含基准提交点（PR 合并前的最后一次提交）、目标补丁（PR 的实际 diff）以及可选的测试命令。工具支持自动检测测试框架，解析 .github/workflows/*.yml、package.json、pyproject.toml、Cargo.toml 和 go.mod 中的测试配置，实现开箱即用的测试执行能力。

基准运行阶段 (mdarena run)：对每个任务分别在两种条件下执行 AI 编码助手。基线条件（baseline）下，所有 CLAUDE.md 和 AGENTS.md 文件被完全剥离，模拟一个「裸机」助手；上下文条件（context）下，则注入待评估的指令文件，由 Claude Code 自己发现并使用该文件。两种条件使用相同的模型、相同的任务、相同的代码库状态，唯一变量是指令文件的存在与内容。执行完成后，工具捕获生成的 git diff 作为候选补丁。

结果对比阶段 (mdarena report)：将候选补丁与目标补丁（真实 PR 的 diff）进行多维度对比。评估指标包括测试通过率（与 SWE-bench 相同）、文件 / 代码块重叠度、token 消耗量以及统计显著性检验（配对 t-test）。当仓库缺少可执行测试时，工具自动降级为 diff 重叠评分模式。

这种方法的核心价值在于任务的真实性和评估的客观性。任务来自团队过去实际解决的代码问题，而非人工构造的玩具案例；评估基于可执行的测试用例或代码变更的精确匹配，而非 LLM 作为评判者的主观打分。

关键发现：指令文件的非单调性

mdarena 作者在一个大型生产级代码库上进行了实证研究，选取 20 个已合并的 PR，使用 Claude Opus 4.6 作为测试模型，对比了三种条件：裸基线、现有的 CLAUDE.md、以及一份整合了所有目录级指导的手写替代版本。研究结果揭示了几个反直觉的规律：

现有 CLAUDE.md 相比裸基线提升了约 27% 的测试解决率，这一数据直接证明了指令文件在特定场景下的正向价值。然而，当把分散在各个子目录中的指令指导合并为一份统一的文档时，其表现反而与不使用任何指令文件时相当。进一步分析发现，分散式指令在困难任务上表现更好，因为它们只在相关的代码子集被访问时才提供上下文，避免了信息过载；整合式文档则因为引入了大量与当前任务无关的噪声，导致智能体产生注意力分散，甚至在某些情况下出现性能回退。

这一发现指向了一个关键的设计原则：有效的指令文件不在于信息的总量，而在于信息与任务的时空匹配度。最成功的 CLAUDE.md 不是最详细的，而是能够在正确的时机将正确的上下文呈现给智能体的。

工程化参数与监控要点

基于 mdarena 的设计理念和实践经验，团队在建立自身的指令文件评估体系时，应关注以下工程化参数：

任务集规模：研究显示，20 个 PR 任务即可观察到统计显著差异，但在生产环境中建议至少采集 50 个任务以获得更稳定的指标。mdarena 支持通过 --limit 参数控制任务数量，--detect-tests 自动从 CI 配置中提取测试命令，减少人工配置成本。

模型选择：不同模型对指令文件的响应模式存在差异。Claude Sonnet 4.6 在该研究中被证明能够有效利用 CLAUDE.md 文件，但对于其他模型（如 Opus、Haiku），最佳实践可能需要重新校准。建议在评估时记录模型版本，并在结果对比时保持模型一致性。

基线对比：评估必须包含裸基线条件，原因在于指令文件的效果是相对于「无指令」状态的增量。没有基线对比的情况下，容易将智能体自身的推理能力错误归因于指令文件的效果。

评估指标阈值：根据 mdarena 的实现，建议关注以下阈值 —— 测试通过率差异超过 10% 视为显著提升；token 消耗差异超过 15% 需进一步分析原因；文件重叠度（hunk-level overlap）低于 60% 时，即使测试通过也应审查补丁质量。

安全隔离：mdarena 使用 git archive 实现历史无关的代码检出（history-free checkout），将基准提交点导出为仅包含单次提交的快照，防止智能体通过遍历未来提交来「作弊」。这一机制对于保持评估的诚信性至关重要，生产环境部署时不应跳过安全检查。

实践建议：构建团队专属的评估闭环

对于希望在团队内部推广 AI 编码助手的工程团队，mdarena 提供了一条从「凭直觉调优」到「数据驱动优化」的可行路径。具体实施建议如下：

首先，建立任务仓库。选定一个具有代表性的代码仓库（建议包含单元测试且 PR 频率较高的活跃项目），使用 mdarena mine owner/repo --limit 50 --detect-tests 构建初始任务集。该任务集可以复用，每次评估新版本的指令文件时都使用相同的任务集，确保可比性。

其次，迭代指令文件。基于评估结果识别智能体的薄弱环节，针对性地在 CLAUDE.md 中补充指导。例如，如果评估显示智能体在重构任务中频繁遗漏测试，可以在指令文件中明确要求「所有重构必须附带相应的测试用例」。每轮修改后重新运行评估，观察指标变化。

最后，持续监控。随着代码库演进和模型更新，定期（如每季度）重新采集任务集并运行评估，确保指令文件始终保持有效性。特别是在引入新框架、大幅重构或升级 AI 模型时，旧的指令文件可能需要相应调整。

mdarena 的价值不仅在于提供了一套工具，更在于它建立了一种以实际代码变更而非主观判断来衡量 AI 助手指令有效性的方法论。对于追求工程卓越的团队，这种量化评估能力是持续优化 AI 辅助开发实践的基础设施。

参考资料

mdarena GitHub 仓库：https://github.com/hudsongri/mdarena
CLAUDE.md 效果研究（arXiv）：https://arxiv.org/abs/2602.11988