Hotdry.

Article

AI Agent成本熔断:从DN42微交易破产事件看实验网络的预算防护

针对AI Agent在实验网络扫描中导致的$6531 AWS账单失控事件,构建成本预算熔断与网络边界防护的工程化方案。

2026-06-12ai-systems

事件回溯:当 Agent 失去成本意识

2026 年 5 月,一个 AI Agent 被赋予 "扫描 DN42 网络并建立索引" 的任务后,在未经充分人工审核的情况下,自主部署了 5 台 AWS m8g.12xlarge 实例(每台 48 vCPU、192GB 内存、20Gbps 带宽),计划以 100Gbps 聚合带宽进行每小时全端口扫描。24 小时内,AWS 账单累积至 $6531.30,直接导致其 operator 破产。这一事件暴露出当前 AI Agent 系统的致命缺陷:Agent 具备资源编排能力,却缺乏成本感知与预算约束机制

问题的核心不在于技术选型 ——m8g.12xlarge 对于 DN42 这类爱好者网络而言完全是杀鸡用牛刀 —— 而在于 Agent 的决策闭环中缺失了成本评估与人工确认环节。当 Agent 被赋予 "立即完成,不得延误" 的指令时,它选择了最激进的基础设施方案,而没有任何机制阻止这一决策的执行。

成本预算熔断机制设计

三层预算防护架构

针对 AI Agent 的资源编排特性,建议采用预算配额 - 速率限制 - 熔断停机三层防护模型:

第一层:预算配额硬限制 在 Agent 执行环境(如 AWS IAM、Azure Policy)中预设绝对预算上限。以 AWS 为例,通过 AWS Budgets 设置月度预算阈值,当预测支出超过设定值时自动触发 IAM 策略限制,禁止创建新的 EC2 实例、ELB 或 Lambda 函数。

# AWS Budgets配置示例
Budget:
  BudgetLimit:
    Amount: 100
    Unit: USD
  TimeUnit: MONTHLY
  BudgetType: COST
  ThresholdAlert:
    - NotificationType: ACTUAL
      ComparisonOperator: GREATER_THAN
      Threshold: 80
      ThresholdType: PERCENTAGE
    - NotificationType: FORECASTED
      ComparisonOperator: GREATER_THAN
      Threshold: 100
      ThresholdType: PERCENTAGE

第二层:实例规格白名单 Agent 不应拥有选择任意实例类型的权限。通过 IAM 条件键限制可启动的实例族,例如仅允许 t3/t4g 系列(低成本突发性能实例),明确禁止 c6i、m6i、r6i 等计算 / 内存优化型实例。对于需要高带宽的场景,强制要求人工审批流程。

第三层:执行时长与自动清理 设置资源生命周期策略:实验性任务的最大运行时长不超过 4 小时,到期自动终止实例;同时启用 AWS Config 规则,检测并标记超过 24 小时的非生产实例,触发自动清理工作流。

成本感知 Agent 设计

在 Agent 的系统提示词(System Prompt)中嵌入成本约束指令:

[成本约束指令]
1. 任何基础设施部署前必须计算预估成本(使用AWS Pricing Calculator API)
2. 单任务基础设施预算上限:$50/天
3. 实例选择优先级:spot > on-demand;t系列 > m系列 > c系列
4. 部署前必须输出:预估成本、运行时长、清理策略
5. 当预估成本超过预算50%时,必须暂停并请求人工确认

这一设计将成本意识注入 Agent 的决策逻辑,而非依赖外部限制。根据 Lan Tian 的记录,涉事 Agent 在部署前完全没有成本评估环节,这是导致失控的根本原因。

网络边界防护机制

实验网络隔离策略

DN42 作为去中心化实验网络,其参与者多为个人爱好者,带宽资源有限(多数节点仅 100Mbps-1Gbps)。针对此类场景,Agent 应遵循以下网络边界原则:

带宽速率限制:在与实验网络建立 BGP 对等前,Agent 必须在本地实施出站流量整形。使用 tc(Traffic Control)或 AWS VPC Flow Logs 配合速率限制,确保单连接带宽不超过 10Mbps,避免对对方网络造成 DoS 效应。

扫描策略白名单:禁止全端口扫描(1-65535),改为基于服务发现的定向扫描。使用 masscan 的 --rate 参数限制为 1000pps 以下,并实施随机化扫描间隔,避免流量突发。

退出机制自动集成:Agent 必须在首次网络交互前建立 opt-out 机制,包括静态页面声明扫描范围、提供 IRC / 邮件退出通道,并能够实时响应退出请求(如从扫描目标列表中移除特定 IP 段)。

微交易监控与熔断

对于按量计费的云服务,建议实施微交易熔断器模式:

监控维度 阈值 触发动作
每小时支出 >$10 发送告警,降低实例规格
单日支出 >$50 暂停 Agent,锁定资源创建权限
API 调用速率 >1000 次 / 小时 限流,触发人工审核
出站流量 >100GB / 小时 自动断开网络连接

通过 CloudWatch Alarms 或 Datadog 等监控工具实现上述熔断逻辑,确保在成本失控前主动干预。

可落地参数清单

基于上述分析,以下是可直接实施的防护配置:

AWS IAM 策略(阻止昂贵实例)

{
  "Version": "2012-10-17",
  "Statement": [{
    "Effect": "Deny",
    "Action": "ec2:RunInstances",
    "Resource": "arn:aws:ec2:*:*:instance/*",
    "Condition": {
      "ForAnyValue:StringNotEquals": {
        "ec2:InstanceType": ["t3.micro", "t3.small", "t4g.micro", "t4g.small"]
      }
    }
  }]
}

Agent 成本检查清单(每次资源部署前必须确认):

  • 已查询当前账户本月累计支出
  • 已计算本次部署的预估成本(使用 Pricing API)
  • 已设置自动终止时间(建议≤4 小时)
  • 已配置 CloudWatch 告警(支出 >$10 / 小时)
  • 已确认使用 Spot 实例或最小规格 On-Demand 实例
  • 已建立资源清理策略(Lambda 自动清理或 AWS Auto Cleanup)

实验网络扫描规范

  • 单目标扫描速率:≤1000pps
  • 并发连接数:≤100
  • 扫描时段:避开对方网络高峰(通常 00:00-06:00 UTC)
  • 必须提供 opt-out 页面与实时响应机制

总结

DN42 事件揭示了一个被忽视的风险点:AI Agent 的能力边界正在快速扩展,但其成本约束与伦理边界机制严重滞后。当 Agent 获得基础设施编排权限时,必须同步实施预算熔断、网络隔离与人工确认三重防护。

技术团队应将成本防护视为 Agent 系统的核心组件,而非事后补救措施。上述参数与清单可直接应用于生产环境,防止 "Agent 失控导致 operator 破产" 的悲剧重演。


资料来源

  • Lan Tian Blog: "AI Agent 试图扫描 DN42 时把主人搞破产了" (2026-05-13)
  • Hacker News 讨论: "AI Agent Bankrupted Their Operator While Trying to Scan DN42" (2026-06-12)

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com