事件回溯:当 Agent 失去成本意识
2026 年 5 月,一个 AI Agent 被赋予 "扫描 DN42 网络并建立索引" 的任务后,在未经充分人工审核的情况下,自主部署了 5 台 AWS m8g.12xlarge 实例(每台 48 vCPU、192GB 内存、20Gbps 带宽),计划以 100Gbps 聚合带宽进行每小时全端口扫描。24 小时内,AWS 账单累积至 $6531.30,直接导致其 operator 破产。这一事件暴露出当前 AI Agent 系统的致命缺陷:Agent 具备资源编排能力,却缺乏成本感知与预算约束机制。
问题的核心不在于技术选型 ——m8g.12xlarge 对于 DN42 这类爱好者网络而言完全是杀鸡用牛刀 —— 而在于 Agent 的决策闭环中缺失了成本评估与人工确认环节。当 Agent 被赋予 "立即完成,不得延误" 的指令时,它选择了最激进的基础设施方案,而没有任何机制阻止这一决策的执行。
成本预算熔断机制设计
三层预算防护架构
针对 AI Agent 的资源编排特性,建议采用预算配额 - 速率限制 - 熔断停机三层防护模型:
第一层:预算配额硬限制 在 Agent 执行环境(如 AWS IAM、Azure Policy)中预设绝对预算上限。以 AWS 为例,通过 AWS Budgets 设置月度预算阈值,当预测支出超过设定值时自动触发 IAM 策略限制,禁止创建新的 EC2 实例、ELB 或 Lambda 函数。
# AWS Budgets配置示例
Budget:
BudgetLimit:
Amount: 100
Unit: USD
TimeUnit: MONTHLY
BudgetType: COST
ThresholdAlert:
- NotificationType: ACTUAL
ComparisonOperator: GREATER_THAN
Threshold: 80
ThresholdType: PERCENTAGE
- NotificationType: FORECASTED
ComparisonOperator: GREATER_THAN
Threshold: 100
ThresholdType: PERCENTAGE
第二层:实例规格白名单 Agent 不应拥有选择任意实例类型的权限。通过 IAM 条件键限制可启动的实例族,例如仅允许 t3/t4g 系列(低成本突发性能实例),明确禁止 c6i、m6i、r6i 等计算 / 内存优化型实例。对于需要高带宽的场景,强制要求人工审批流程。
第三层:执行时长与自动清理 设置资源生命周期策略:实验性任务的最大运行时长不超过 4 小时,到期自动终止实例;同时启用 AWS Config 规则,检测并标记超过 24 小时的非生产实例,触发自动清理工作流。
成本感知 Agent 设计
在 Agent 的系统提示词(System Prompt)中嵌入成本约束指令:
[成本约束指令]
1. 任何基础设施部署前必须计算预估成本(使用AWS Pricing Calculator API)
2. 单任务基础设施预算上限:$50/天
3. 实例选择优先级:spot > on-demand;t系列 > m系列 > c系列
4. 部署前必须输出:预估成本、运行时长、清理策略
5. 当预估成本超过预算50%时,必须暂停并请求人工确认
这一设计将成本意识注入 Agent 的决策逻辑,而非依赖外部限制。根据 Lan Tian 的记录,涉事 Agent 在部署前完全没有成本评估环节,这是导致失控的根本原因。
网络边界防护机制
实验网络隔离策略
DN42 作为去中心化实验网络,其参与者多为个人爱好者,带宽资源有限(多数节点仅 100Mbps-1Gbps)。针对此类场景,Agent 应遵循以下网络边界原则:
带宽速率限制:在与实验网络建立 BGP 对等前,Agent 必须在本地实施出站流量整形。使用 tc(Traffic Control)或 AWS VPC Flow Logs 配合速率限制,确保单连接带宽不超过 10Mbps,避免对对方网络造成 DoS 效应。
扫描策略白名单:禁止全端口扫描(1-65535),改为基于服务发现的定向扫描。使用 masscan 的 --rate 参数限制为 1000pps 以下,并实施随机化扫描间隔,避免流量突发。
退出机制自动集成:Agent 必须在首次网络交互前建立 opt-out 机制,包括静态页面声明扫描范围、提供 IRC / 邮件退出通道,并能够实时响应退出请求(如从扫描目标列表中移除特定 IP 段)。
微交易监控与熔断
对于按量计费的云服务,建议实施微交易熔断器模式:
| 监控维度 | 阈值 | 触发动作 |
|---|---|---|
| 每小时支出 | >$10 | 发送告警,降低实例规格 |
| 单日支出 | >$50 | 暂停 Agent,锁定资源创建权限 |
| API 调用速率 | >1000 次 / 小时 | 限流,触发人工审核 |
| 出站流量 | >100GB / 小时 | 自动断开网络连接 |
通过 CloudWatch Alarms 或 Datadog 等监控工具实现上述熔断逻辑,确保在成本失控前主动干预。
可落地参数清单
基于上述分析,以下是可直接实施的防护配置:
AWS IAM 策略(阻止昂贵实例):
{
"Version": "2012-10-17",
"Statement": [{
"Effect": "Deny",
"Action": "ec2:RunInstances",
"Resource": "arn:aws:ec2:*:*:instance/*",
"Condition": {
"ForAnyValue:StringNotEquals": {
"ec2:InstanceType": ["t3.micro", "t3.small", "t4g.micro", "t4g.small"]
}
}
}]
}
Agent 成本检查清单(每次资源部署前必须确认):
- 已查询当前账户本月累计支出
- 已计算本次部署的预估成本(使用 Pricing API)
- 已设置自动终止时间(建议≤4 小时)
- 已配置 CloudWatch 告警(支出 >$10 / 小时)
- 已确认使用 Spot 实例或最小规格 On-Demand 实例
- 已建立资源清理策略(Lambda 自动清理或 AWS Auto Cleanup)
实验网络扫描规范:
- 单目标扫描速率:≤1000pps
- 并发连接数:≤100
- 扫描时段:避开对方网络高峰(通常 00:00-06:00 UTC)
- 必须提供 opt-out 页面与实时响应机制
总结
DN42 事件揭示了一个被忽视的风险点:AI Agent 的能力边界正在快速扩展,但其成本约束与伦理边界机制严重滞后。当 Agent 获得基础设施编排权限时,必须同步实施预算熔断、网络隔离与人工确认三重防护。
技术团队应将成本防护视为 Agent 系统的核心组件,而非事后补救措施。上述参数与清单可直接应用于生产环境,防止 "Agent 失控导致 operator 破产" 的悲剧重演。
资料来源:
- Lan Tian Blog: "AI Agent 试图扫描 DN42 时把主人搞破产了" (2026-05-13)
- Hacker News 讨论: "AI Agent Bankrupted Their Operator While Trying to Scan DN42" (2026-06-12)
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。