在企业级 AI 代理走向生产环境的过程中,安全边界的设计始终是核心挑战。当代理获得了真实凭证(API 密钥、OAuth 令牌、服务账号)后,一个被提示注入的代理可能瞬间将请求发往外部 API 并产生生产级影响。传统的防护方案要么过度限制导致代理无法正常工作,要么过度定制无法规模化。Brex 给出的答案是 CrabTrap—— 一个开源的 HTTP/HTTPS 代理,通过 LLM-as-judge 机制在网络层实现细粒度的安全决策。
核心架构:透明拦截与双阶段评估
CrabTrap 的设计哲学是将安全控制下沉到传输层,从而实现对代理的完全透明。部署时仅需在代理的运行环境变量中设置 HTTP_PROXY 和 HTTPS_PROXY 指向 CrabTrap 实例,所有的出站请求都会流经该代理,无需修改代理代码、引入 SDK 或为每个工具单独集成。对于 HTTPS 流量,CrabTrap 执行 TLS 拦截:自行生成 CA 证书为每个目标主机签发证书,先与客户端建立 TLS 连接,再向上游目标服务器建立独立的 TLS 连接。部署时可额外配置 iptables 规则,阻止容器内直接发往非代理地址的出站流量,形成纵深防御。
每个请求在 CrabTrap 中经历两阶段评估。第一阶段是静态规则检查,执行确定性模式匹配(URL 前缀、精确匹配、glob 模式),可按 HTTP 方法过滤。拒绝规则优先于允许规则,静态规则编译为缓存的正则表达式,执行时间在微秒级。当静态规则无法匹配时,请求进入第二阶段:由 LLM 担任评判器。评判器接收完整的请求上下文(方法、URL、头部、正文)和该代理的自然语言策略,返回结构化的 JSON 决策(ALLOW 或 DENY)并附带决策理由。这种设计确保了已知模式的高速匹配和未知场景的智能判断。
评判器的安全强化:防止提示注入
将用户控制的 HTTP 请求内容发送给 LLM 本身就构成了一个潜在的攻击面。CrabTrap 在这方面做了精心设计:所有用户控制的内容(URL、头部、正文)都以结构化 JSON 字段的形式传递,而非原始文本插值,从而实现自动转义。安全相关的头部被优先处理,整个头部内容被限制在 4KB 以内,防止通过填充垃圾数据实现的提示膨胀攻击。请求正文截断在 16KB,并在截断处向模型发出明确警告。对于多部分请求(multipart),系统提取每个部分的结构化摘要而非直接发送原始内容。这些措施共同确保了评判器不会被请求本身所操纵。
策略生成与评估闭环
为代理编写有效的自然语言策略并非易事。CrabTrap 提供了两个关键系统来解决这一挑战。第一个是策略构建器,它本身是一个代理循环,核心思路是先观察后归纳:分析代理的历史流量、采样代表性的网络调用,从中推断出与代理实际行为相匹配的政策草案。这种从实际行为出发再人工编辑的方式,远比从空白页面开始写策略更加有效。第二个是评估系统,允许在政策变更上线前进行回放测试。CrabTrap 可以将历史审计条目重放至新政策下,对比决策变化,按 HTTP 方法、URL、原始决策和一致性状态进行切片分析。评估系统支持并发调用,数以千计的请求重放可在几分钟内完成。所有历史请求均存储在 PostgreSQL 中,可通过管理 API 和 Web 仪表盘进行索引和查询。
生产部署的关键参数
基于 Brex 在生产环境中的实际运行经验,以下参数和监控点值得在部署时重点关注。
流量模式收敛时间。代理在启动后会快速形成可预测的流量模式,一旦观察到高频请求,这些请求即可迁移至静态规则,使得 LLM 评判器仅在长尾的未知端点或异常请求形状上触发。Brex 在一个生产用例中观察到 LLM 评判器仅在不到 3% 的请求上激活,这意味着大多数请求几乎无额外延迟。
静态规则与动态评判的比例。部署初期应密切监控静态规则命中率与 LLM 触发频率的比值。如果 LLM 触发率长期高于 10%,说明策略覆盖不足,应通过策略构建器补充规则或调整现有策略。
延迟预算分配。静态规则匹配在微秒级完成,可忽略不计。LLM 评判的延迟取决于模型选择和上下文大小,建议为 LLM 评判设置独立的超时阈值(如 5 秒),超过阈值的请求默认进入拒绝队列并记录告警。
TLS 证书管理。自行签发 CA 证书的更新周期、证书撤销列表的刷新策略、以及证书链验证失败时的降级处理逻辑,都需要在部署清单中明确定义。
审计日志的关键维度。每条审计记录应至少包含:时间戳、代理标识、请求方法与 URL、决策结果(ALLOW/DENY)、决策理由、静态规则匹配结果(若有)、LLM 模型版本和政策版本。这些维度支撑了后续的安全分析和策略迭代。
监控与告警指标
生产环境中应重点监控以下指标:LLM 评判的拒绝率及其时间序列趋势、LLM 评判的平均与 p99 延迟、静态规则覆盖率的趋势变化、以及单位时间内的策略更新频率。异常的拒绝率飙升可能暗示策略过于严格或代理被攻击,而延迟的逐步恶化则可能预示上下文膨胀导致的模型性能下降。CrabTrap 的审计日志本身也是优化代理的洞察来源 —— 通过分析被拒绝的请求类别,可以反向推动代理本身的工具精简和请求去噪。
CrabTrap 代表了 AI 代理安全工程的一个重要方向:在不牺牲代理能力的前提下,通过传输层的透明拦截和 LLM 评判实现细粒度的政策执行。随着更多企业将 AI 代理投入生产,这一架构的可扩展性和社区反馈将决定其长期价值。
资料来源:Brex Engineering Blog, "CrabTrap: an LLM-as-a-judge HTTP proxy to secure agents in production" (2026-04-21)