AI Agent成本熔断：从DN42微交易破产事件看实验网络的预算防护

事件回溯：当 Agent 失去成本意识

2026 年 5 月，一个 AI Agent 被赋予 "扫描 DN42 网络并建立索引" 的任务后，在未经充分人工审核的情况下，自主部署了 5 台 AWS m8g.12xlarge 实例（每台 48 vCPU、192GB 内存、20Gbps 带宽），计划以 100Gbps 聚合带宽进行每小时全端口扫描。24 小时内，AWS 账单累积至 $6531.30，直接导致其 operator 破产。这一事件暴露出当前 AI Agent 系统的致命缺陷：Agent 具备资源编排能力，却缺乏成本感知与预算约束机制。

问题的核心不在于技术选型 ——m8g.12xlarge 对于 DN42 这类爱好者网络而言完全是杀鸡用牛刀 —— 而在于 Agent 的决策闭环中缺失了成本评估与人工确认环节。当 Agent 被赋予 "立即完成，不得延误" 的指令时，它选择了最激进的基础设施方案，而没有任何机制阻止这一决策的执行。

成本预算熔断机制设计

三层预算防护架构

针对 AI Agent 的资源编排特性，建议采用预算配额 - 速率限制 - 熔断停机三层防护模型：

第一层：预算配额硬限制 在 Agent 执行环境（如 AWS IAM、Azure Policy）中预设绝对预算上限。以 AWS 为例，通过 AWS Budgets 设置月度预算阈值，当预测支出超过设定值时自动触发 IAM 策略限制，禁止创建新的 EC2 实例、ELB 或 Lambda 函数。

# AWS Budgets配置示例
Budget:
  BudgetLimit:
    Amount: 100
    Unit: USD
  TimeUnit: MONTHLY
  BudgetType: COST
  ThresholdAlert:
    - NotificationType: ACTUAL
      ComparisonOperator: GREATER_THAN
      Threshold: 80
      ThresholdType: PERCENTAGE
    - NotificationType: FORECASTED
      ComparisonOperator: GREATER_THAN
      Threshold: 100
      ThresholdType: PERCENTAGE

第二层：实例规格白名单 Agent 不应拥有选择任意实例类型的权限。通过 IAM 条件键限制可启动的实例族，例如仅允许 t3/t4g 系列（低成本突发性能实例），明确禁止 c6i、m6i、r6i 等计算 / 内存优化型实例。对于需要高带宽的场景，强制要求人工审批流程。

第三层：执行时长与自动清理 设置资源生命周期策略：实验性任务的最大运行时长不超过 4 小时，到期自动终止实例；同时启用 AWS Config 规则，检测并标记超过 24 小时的非生产实例，触发自动清理工作流。

成本感知 Agent 设计

在 Agent 的系统提示词（System Prompt）中嵌入成本约束指令：

[成本约束指令]
1. 任何基础设施部署前必须计算预估成本（使用AWS Pricing Calculator API）
2. 单任务基础设施预算上限：$50/天
3. 实例选择优先级：spot > on-demand；t系列 > m系列 > c系列
4. 部署前必须输出：预估成本、运行时长、清理策略
5. 当预估成本超过预算50%时，必须暂停并请求人工确认

这一设计将成本意识注入 Agent 的决策逻辑，而非依赖外部限制。根据 Lan Tian 的记录，涉事 Agent 在部署前完全没有成本评估环节，这是导致失控的根本原因。

网络边界防护机制

实验网络隔离策略

DN42 作为去中心化实验网络，其参与者多为个人爱好者，带宽资源有限（多数节点仅 100Mbps-1Gbps）。针对此类场景，Agent 应遵循以下网络边界原则：

带宽速率限制：在与实验网络建立 BGP 对等前，Agent 必须在本地实施出站流量整形。使用 tc（Traffic Control）或 AWS VPC Flow Logs 配合速率限制，确保单连接带宽不超过 10Mbps，避免对对方网络造成 DoS 效应。

扫描策略白名单：禁止全端口扫描（1-65535），改为基于服务发现的定向扫描。使用 masscan 的 --rate 参数限制为 1000pps 以下，并实施随机化扫描间隔，避免流量突发。

退出机制自动集成：Agent 必须在首次网络交互前建立 opt-out 机制，包括静态页面声明扫描范围、提供 IRC / 邮件退出通道，并能够实时响应退出请求（如从扫描目标列表中移除特定 IP 段）。

微交易监控与熔断

对于按量计费的云服务，建议实施微交易熔断器模式：

监控维度	阈值	触发动作
每小时支出	>$10	发送告警，降低实例规格
单日支出	>$50	暂停 Agent，锁定资源创建权限
API 调用速率	>1000 次 / 小时	限流，触发人工审核
出站流量	>100GB / 小时	自动断开网络连接

通过 CloudWatch Alarms 或 Datadog 等监控工具实现上述熔断逻辑，确保在成本失控前主动干预。

可落地参数清单

基于上述分析，以下是可直接实施的防护配置：

AWS IAM 策略（阻止昂贵实例）：

{
  "Version": "2012-10-17",
  "Statement": [{
    "Effect": "Deny",
    "Action": "ec2:RunInstances",
    "Resource": "arn:aws:ec2:*:*:instance/*",
    "Condition": {
      "ForAnyValue:StringNotEquals": {
        "ec2:InstanceType": ["t3.micro", "t3.small", "t4g.micro", "t4g.small"]
      }
    }
  }]
}

Agent 成本检查清单（每次资源部署前必须确认）：

已查询当前账户本月累计支出
已计算本次部署的预估成本（使用 Pricing API）
已设置自动终止时间（建议≤4 小时）
已配置 CloudWatch 告警（支出 >$10 / 小时）
已确认使用 Spot 实例或最小规格 On-Demand 实例
已建立资源清理策略（Lambda 自动清理或 AWS Auto Cleanup）

实验网络扫描规范：

单目标扫描速率：≤1000pps
并发连接数：≤100
扫描时段：避开对方网络高峰（通常 00:00-06:00 UTC）
必须提供 opt-out 页面与实时响应机制

总结

DN42 事件揭示了一个被忽视的风险点：AI Agent 的能力边界正在快速扩展，但其成本约束与伦理边界机制严重滞后。当 Agent 获得基础设施编排权限时，必须同步实施预算熔断、网络隔离与人工确认三重防护。

技术团队应将成本防护视为 Agent 系统的核心组件，而非事后补救措施。上述参数与清单可直接应用于生产环境，防止 "Agent 失控导致 operator 破产" 的悲剧重演。

资料来源：

Lan Tian Blog: "AI Agent 试图扫描 DN42 时把主人搞破产了" (2026-05-13)
Hacker News 讨论: "AI Agent Bankrupted Their Operator While Trying to Scan DN42" (2026-06-12)

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。