AI Agent成本熔断机制：从DN42破产事件看预算安全边界设计

2026 年 5 月，一个名为 JertLinc3522 的 AI Agent 在尝试扫描 DN42 实验网络时，为其主人在 AWS 上生成了高达 $6531.30 的账单，直接导致其 "破产"。这一事件揭示了当前 AI Agent 系统在成本管控方面的致命缺陷：当 Agent 被赋予云资源访问权限却缺乏有效的预算约束机制时，其自主决策能力反而会成为财务风险的放大器。

事件回顾：当 Agent 遇上 AWS

该 AI Agent 的任务是 "为 DN42 网络创建索引"，其核心需求是进行网络扫描。然而，Agent 自主设计并部署了一套远超实际需求的基础设施：5 个 AWS m8g.12xlarge 实例，每个配备 48 个 vCPU、192 GiB 内存和 22.5 Gbps 网络带宽，总计 100 Gbps 的扫描能力。此外还包含了负载均衡器、Lambda 函数等配套资源。

DN42 是一个由爱好者运营的实验性 VPN 网络，参与者多使用低价 VPS，带宽通常在 100Mbps 到 1Gbps 之间。对于这样一个网络，一台小型 VPS 即可完成扫描任务。但 Agent 在 "立即完成、不得延误" 的指令驱动下，选择了最激进的技术方案，完全忽视了成本效益分析。正如事件记录中所指出的："任何正常人都不会觉得五个 20 Gbps 的 AWS 实例能够确保数据收集不会干扰到别人。"

成本失控的根因分析

这一事件暴露了当前 AI Agent 系统的三个核心问题：

第一，缺乏成本感知能力。 大语言模型在训练过程中并未获得真实世界的云服务定价信息，因此无法建立 "资源规格 - 成本" 的映射关系。Agent 可以流畅地描述 m8g.12xlarge 的技术参数，却无法理解这些参数在账单上的具体含义。

第二，目标函数单一化。 当 Agent 被赋予 "尽快完成任务" 的指令时，其优化目标会退化为纯粹的执行效率，而忽略其他约束条件。这种单一目标驱动下的决策，极易导致资源过度配置。

第三，权限边界模糊。 事件中 Agent 被赋予了 AWS 账户的完全访问权限，可以自主创建、修改和删除资源，而没有任何中间审批或预算检查环节。这种 "全或无" 的权限模型，使得成本风险无法被提前拦截。

成本熔断机制设计

针对上述问题，我们需要为 AI Agent 系统设计一套成本熔断机制，其核心是在资源创建路径上设置多层安全阀。

** 预算上限（Budget Cap）** 是最基础的一层防护。应在 Agent 执行环境层面设置硬性预算上限，例如单日 $50 或单月 $200。当累计消费达到阈值的 80% 时触发预警，达到 100% 时自动暂停 Agent 的所有资源创建权限。这一机制类似于电路中的熔断器，在电流过大时自动切断电路，防止设备损坏。

** 资源配额（Resource Quota）** 是对预算上限的补充。即使预算充足，也应限制 Agent 可创建的资源规格。例如，禁止创建超过 4 vCPU 的实例，或限制单个区域的带宽上限。这种基于资源维度的约束，可以防止 Agent 因 "追求极致性能" 而选择昂贵的实例类型。

** 实时监控与告警（Real-time Monitoring）** 提供了动态感知能力。通过对接云厂商的计费 API，Agent 系统应在每次资源创建操作前查询当前账单状态，并预估新资源的生命周期成本。如果预估总成本超出预算，应拒绝执行并上报给人类操作员。

预算安全边界的工程实践

在实际部署中，成本熔断机制需要与权限管理体系深度集成，形成分层的预算安全边界。

分层权限模型建议将 Agent 的资源操作权限分为三个层级：只读层（可查询资源状态）、受限写入层（可创建指定规格内的资源）、完全控制层（无限制操作）。默认情况下，Agent 应仅拥有受限写入权限，且所有资源创建操作必须通过成本检查模块的校验。

告警阈值设计应遵循 "渐进式干预" 原则。建议设置三级阈值：60% 触发信息级告警（记录日志）、80% 触发警告级告警（通知操作员）、100% 触发严重告警（自动关停资源并锁定账户）。这种分级响应机制既避免了过度敏感导致的频繁中断，又确保了在风险升级时能够及时介入。

自动关停策略是最后一道防线。当成本熔断触发时，系统应自动执行资源清理：首先停止非关键任务，然后释放可中断资源（如 Spot 实例），最后关闭核心实例并保留数据卷以便后续恢复。整个关停过程应在 5 分钟内完成，以最小化持续计费时间。

可落地的参数清单

基于上述设计，以下是可直接应用的配置参数：

单日预算上限：$50（开发环境）/ $200（生产环境）
单实例 vCPU 上限：4 核（开发）/ 16 核（生产）
单实例内存上限：16 GiB（开发）/ 64 GiB（生产）
带宽上限：1 Gbps（任何环境）
告警阈值：60%/80%/100% 三级递进
关停超时：5 分钟自动执行
保留策略：数据卷保留 7 天后自动清理

此外，建议在 Agent 的系统提示词（System Prompt）中明确注入成本约束指令，例如："在选择云资源时，优先考虑成本效益，默认使用最小可满足需求的实例规格，禁止未经确认创建超过 $10 / 天的资源。"

结论

DN42 扫描事件给我们上了一堂昂贵的课：AI Agent 的能力边界不仅取决于其智能水平，更取决于我们为其设置的安全边界。成本熔断机制不是对 Agent 能力的限制，而是对其负责任部署的保障。正如事件中社区成员所反思的："这正是你不应该让一个 Agent 拿着信用卡到处撒野的原因。"

在将 AI Agent 投入生产环境之前，务必先为其戴上 "预算手铐"—— 这不是束缚，而是保护。

资料来源

蓝天博客：《AI Agent 试图扫描 DN42 时把主人搞破产了》，https://lantian.pub/article/fun/ai-agent-bankrupted-their-operator-scan-dn42lantian.lantian/

systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。