工程化 SWE-Grep-Mini 的 RL 策略：高效多轮代码上下文检索

在软件工程代理的开发中，多轮代码上下文检索是实现高效任务解决的关键瓶颈。传统方法如嵌入式 RAG 或顺序代理搜索往往在速度与准确性间难以平衡，导致代理响应延迟，破坏用户流畅体验。SWE-Grep-Mini 通过强化学习（RL）政策工程，提供了一种轻量级解决方案：它支持高度并行的工具调用，专注于子 100ms 延迟下的高效检索，同时融入相似性 - based 去重机制，避免冗余上下文污染主代理的决策过程。这种设计不仅匹配前沿模型的检索能力，还将端到端延迟降低一个数量级，使代理在受限环境中（如边缘设备或低带宽场景）保持高性能。

RL 政策的工程化是 SWE-Grep-Mini 的核心创新。政策设计以多代理框架为基础，将检索任务分解为有限的序列轮次，每轮允许最多 8 个并行工具调用（如 grep、glob 和 read 操作）。这种并行化策略源于对代理行为的观察：顺序搜索需 10-20 轮，而并行探索可在 4 轮内完成类似深度。证据显示，在内部 Cognition CodeSearch Eval 数据集上，该政策通过加权 F1 分数（β=0.5，优先精确率）奖励文件和行范围的准确检索，实现了与 Sonnet 4.5 等前沿模型相当的性能，但推理速度提升 20 倍以上。训练采用修改的政策梯度方法，使用蒙特卡洛估计结合重要性采样，确保低精度 rollout 下的无偏梯度计算。具体而言，损失函数为：

[ L = -\sum_{t=1}^{T} \left( \log \pi(a_t | s_t) \cdot A_t \right) ]

其中优势函数 (A_t = R - \bar {R} )，R 为序列级奖励，(\bar {R}) 为批量均值。这种公式通过序列级重要性采样修正了 off-policy 数据偏差，避免了 token 级比率的局部偏差问题。

为了进一步优化轻量级模型效率，SWE-Grep-Mini 采用知识蒸馏从 SWE-Grep 基础模型中继承能力，后续通过额外 RL 微调提升特定任务适应性。训练稳定性是关键挑战：环境 token（如工具输出）引入噪声，可能导致小模型收敛不稳。为此，实施了多重掩码策略，包括对超长轨迹、极端重要性比率轨迹的损失掩码，以及对格式错误工具调用的零奖励中断。此外，优势缩放机制根据每轮平均工具调用数动态调整，防止模型过度并行无效调用（如重复搜索），而是逐步强化有效预算利用。实证结果表明，这种方法在 3B 参数规模下，将并行工具调用从初始的低效 4 个提升至高效 8 个，同时 F1 分数从 0.65 提高到 0.82。

相似性 - based 去重是 SWE-Grep-Mini 在受限环境中的另一亮点。传统检索易引入上下文污染，主代理需处理数万无关 token，导致决策退化。该机制通过 RL 学习嵌入相似性阈值（默认 cosine 相似度 > 0.85），在并行结果中过滤冗余文件或行。证据来自下游 SWE-Bench Verified 任务评估：使用 Fast Context 子代理时，Cascade 代理（基于 Sonnet 4.5）在相同任务完成率下，端到端时间从 45s 降至 12s，污染率降低 40%。去重不牺牲召回：通过 β=0.5 的 F1 优化，确保精确文件优先，同时允许主代理在后续轮次补充遗漏依赖。这种设计特别适用于代码库 Q&A 场景，如追踪大型代码库中的执行路径，仅需 2-3s 即可定位相关上下文。

落地部署 SWE-Grep-Mini 时，可操作参数和清单至关重要。首先，配置推理环境：选择 Cerebras 等高吞吐提供商，确保 SWE-Grep-Mini 的 2800+ tokens/s 速度；工具集限制为 {grep, read, glob}，最大 4 轮、8 并行调用，以控制延迟 <100ms。其次，相似性去重参数：设置阈值 0.8-0.9，根据代码库规模调整（小型库用 0.85，大型用 0.8 以增加召回）；集成 Faiss 索引加速嵌入计算，内存预算 <500MB。监控要点包括：轨迹级指标，如平均工具调用效率（目标 >6 / 轮）和 F1 分数（>0.8）；延迟分位数（P95 <80ms）；污染率（<10%）。回滚策略：若 F1 降至 0.7 以下，切换至基线 RAG；异常检测使用异常奖励信号（如格式错误率 >5%）触发回滚。集成清单：1) 初始化子代理接口，与主代理（如 Cascade）对接；2) 预索引代码库，支持动态更新；3) A/B 测试下游任务完成率；4) 日志轨迹以迭代 RL 政策。

总之，SWE-Grep-Mini 的 RL 政策工程展示了如何在轻量级框架下平衡速度与智能。通过并行探索、去重优化和稳定训练，它为软件工程代理提供了高效检索基础。在实际部署中，遵循上述参数可确保 sub-100ms 响应，显著提升用户生产力。未来，可扩展至更多工具集，进一步降低延迟门槛，推动代理向全异步范式演进。（字数: 1028）