CrabTrap 生产实践：LLM-as-judge HTTP 代理的部署参数与监控要点

在企业级 AI 代理走向生产环境的过程中，安全边界的设计始终是核心挑战。当代理获得了真实凭证（API 密钥、OAuth 令牌、服务账号）后，一个被提示注入的代理可能瞬间将请求发往外部 API 并产生生产级影响。传统的防护方案要么过度限制导致代理无法正常工作，要么过度定制无法规模化。Brex 给出的答案是 CrabTrap—— 一个开源的 HTTP/HTTPS 代理，通过 LLM-as-judge 机制在网络层实现细粒度的安全决策。

核心架构：透明拦截与双阶段评估

CrabTrap 的设计哲学是将安全控制下沉到传输层，从而实现对代理的完全透明。部署时仅需在代理的运行环境变量中设置 HTTP_PROXY 和 HTTPS_PROXY 指向 CrabTrap 实例，所有的出站请求都会流经该代理，无需修改代理代码、引入 SDK 或为每个工具单独集成。对于 HTTPS 流量，CrabTrap 执行 TLS 拦截：自行生成 CA 证书为每个目标主机签发证书，先与客户端建立 TLS 连接，再向上游目标服务器建立独立的 TLS 连接。部署时可额外配置 iptables 规则，阻止容器内直接发往非代理地址的出站流量，形成纵深防御。

每个请求在 CrabTrap 中经历两阶段评估。第一阶段是静态规则检查，执行确定性模式匹配（URL 前缀、精确匹配、glob 模式），可按 HTTP 方法过滤。拒绝规则优先于允许规则，静态规则编译为缓存的正则表达式，执行时间在微秒级。当静态规则无法匹配时，请求进入第二阶段：由 LLM 担任评判器。评判器接收完整的请求上下文（方法、URL、头部、正文）和该代理的自然语言策略，返回结构化的 JSON 决策（ALLOW 或 DENY）并附带决策理由。这种设计确保了已知模式的高速匹配和未知场景的智能判断。

评判器的安全强化：防止提示注入

将用户控制的 HTTP 请求内容发送给 LLM 本身就构成了一个潜在的攻击面。CrabTrap 在这方面做了精心设计：所有用户控制的内容（URL、头部、正文）都以结构化 JSON 字段的形式传递，而非原始文本插值，从而实现自动转义。安全相关的头部被优先处理，整个头部内容被限制在 4KB 以内，防止通过填充垃圾数据实现的提示膨胀攻击。请求正文截断在 16KB，并在截断处向模型发出明确警告。对于多部分请求（multipart），系统提取每个部分的结构化摘要而非直接发送原始内容。这些措施共同确保了评判器不会被请求本身所操纵。

策略生成与评估闭环

为代理编写有效的自然语言策略并非易事。CrabTrap 提供了两个关键系统来解决这一挑战。第一个是策略构建器，它本身是一个代理循环，核心思路是先观察后归纳：分析代理的历史流量、采样代表性的网络调用，从中推断出与代理实际行为相匹配的政策草案。这种从实际行为出发再人工编辑的方式，远比从空白页面开始写策略更加有效。第二个是评估系统，允许在政策变更上线前进行回放测试。CrabTrap 可以将历史审计条目重放至新政策下，对比决策变化，按 HTTP 方法、URL、原始决策和一致性状态进行切片分析。评估系统支持并发调用，数以千计的请求重放可在几分钟内完成。所有历史请求均存储在 PostgreSQL 中，可通过管理 API 和 Web 仪表盘进行索引和查询。

生产部署的关键参数

基于 Brex 在生产环境中的实际运行经验，以下参数和监控点值得在部署时重点关注。

流量模式收敛时间。代理在启动后会快速形成可预测的流量模式，一旦观察到高频请求，这些请求即可迁移至静态规则，使得 LLM 评判器仅在长尾的未知端点或异常请求形状上触发。Brex 在一个生产用例中观察到 LLM 评判器仅在不到 3% 的请求上激活，这意味着大多数请求几乎无额外延迟。

静态规则与动态评判的比例。部署初期应密切监控静态规则命中率与 LLM 触发频率的比值。如果 LLM 触发率长期高于 10%，说明策略覆盖不足，应通过策略构建器补充规则或调整现有策略。

延迟预算分配。静态规则匹配在微秒级完成，可忽略不计。LLM 评判的延迟取决于模型选择和上下文大小，建议为 LLM 评判设置独立的超时阈值（如 5 秒），超过阈值的请求默认进入拒绝队列并记录告警。

TLS 证书管理。自行签发 CA 证书的更新周期、证书撤销列表的刷新策略、以及证书链验证失败时的降级处理逻辑，都需要在部署清单中明确定义。

审计日志的关键维度。每条审计记录应至少包含：时间戳、代理标识、请求方法与 URL、决策结果（ALLOW/DENY）、决策理由、静态规则匹配结果（若有）、LLM 模型版本和政策版本。这些维度支撑了后续的安全分析和策略迭代。

监控与告警指标

生产环境中应重点监控以下指标：LLM 评判的拒绝率及其时间序列趋势、LLM 评判的平均与 p99 延迟、静态规则覆盖率的趋势变化、以及单位时间内的策略更新频率。异常的拒绝率飙升可能暗示策略过于严格或代理被攻击，而延迟的逐步恶化则可能预示上下文膨胀导致的模型性能下降。CrabTrap 的审计日志本身也是优化代理的洞察来源 —— 通过分析被拒绝的请求类别，可以反向推动代理本身的工具精简和请求去噪。

CrabTrap 代表了 AI 代理安全工程的一个重要方向：在不牺牲代理能力的前提下，通过传输层的透明拦截和 LLM 评判实现细粒度的政策执行。随着更多企业将 AI 代理投入生产，这一架构的可扩展性和社区反馈将决定其长期价值。

资料来源：Brex Engineering Blog, "CrabTrap: an LLM-as-a-judge HTTP proxy to secure agents in production" (2026-04-21)

security

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。