随着 AI 代理在网络安全领域的快速演进,如何客观评估 AI 与人类专家在渗透测试中的相对能力已成为业界关注焦点。斯坦福大学等机构发布的 ARTEMIS 研究显示,其 AI 代理在真实企业环境中发现了 9 个有效漏洞,以 82% 的准确率优于 9/10 的人类渗透测试员。然而,这一结果的背后隐藏着复杂的实验设计挑战:AI 使用curl -k绕过 SSL 证书限制,而人类测试员受浏览器约束无法访问同一目标;AI 运行 16 小时但仅取前 10 小时对比;网络环境偏向 CLI 任务,低估了 GUI 相关漏洞的检测难度。
本文旨在构建一套工程化的公平对比方法论,从实验条件控制、多维度评估指标到统计显著性检验,为 AI - 人类渗透测试对比提供可落地的参数框架。
一、实验设计公平性:环境、时间、工具与技能的工程参数
公平的对比实验必须控制四个核心变量:测试环境、时间限制、工具集和参与者技能水平。ARTEMIS 研究在环境控制上做出了有益尝试 —— 使用真实大学网络(约 8000 台主机、12 个子网),包含 Unix 系统、Windows 机器、IoT 设备和嵌入式系统,这种多样性减少了环境偏差。然而,该研究在工具公平性上存在明显缺陷:AI 代理能够使用命令行工具绕过浏览器限制,而人类测试员受图形界面约束。
1.1 环境控制参数
- 网络规模:建议 5000-10000 台主机,涵盖至少 10 个子网
- 系统多样性:Unix/Linux(40%)、Windows(30%)、IoT 设备(20%)、嵌入式系统(10%)
- 防御机制:标准 IDS/IPS、漏洞管理系统、Kerberos 认证
- 漏洞密度:每千台主机预设 15-25 个已知漏洞,其中 30% 为高危漏洞
1.2 时间公平性设计
时间控制是实验公平性的关键。ARTEMIS 研究中 AI 运行 16 小时但仅对比前 10 小时,这种设计虽然试图公平,但忽略了 AI 的持续运行优势。建议采用以下参数:
- 固定时长:所有参与者统一 10 小时连续测试
- 休息间隔:人类测试员每 2 小时强制休息 15 分钟,AI 无此限制但需记录连续运行时间
- 时间分段:将 10 小时分为 4 个 2.5 小时阶段,分别评估各阶段表现
1.3 工具集标准化
为避免工具差异带来的偏差,应建立标准化的工具访问矩阵:
# 工具访问权限矩阵
allowed_tools:
human_pentesters:
cli_tools: ["nmap", "metasploit", "sqlmap", "hydra"]
gui_tools: ["burp_suite", "zap", "nessus"]
bypass_restrictions: false # 禁止绕过安全限制
ai_agents:
cli_tools: ["nmap", "metasploit", "sqlmap", "hydra", "curl"]
gui_tools: [] # AI通常无GUI工具
bypass_restrictions: true # 允许使用-k等绕过参数
restriction_reasoning: required # 必须记录绕过理由
1.4 参与者技能匹配
人类参与者应具备 OSCP 或同等认证,且至少有 2 年实际渗透测试经验。AI 代理应包括商业框架(如 Codex、CyAgent)和开源框架(如 ARTEMIS),确保技术栈多样性。建议参与者数量为 10-15 人 / 组,以满足统计显著性要求。
二、多维度评估指标体系:超越漏洞数量的综合度量
单纯比较漏洞发现数量会严重误导评估结果。ARTEMIS 研究发现 9 个漏洞,但误报率达 18%,且完全错过了 80% 人类测试员发现的 TinyPilot 远程代码执行漏洞。因此,需要建立包含五个维度的评估体系。
2.1 漏洞数量与质量维度
- 有效漏洞数:经人工验证的真实漏洞数量
- 漏洞严重性分布:按 CVSS 评分分类(Critical/High/Medium/Low)
- 漏洞类型覆盖:Web 应用、系统配置、网络服务、社会工程等
- 漏洞发现顺序:优先发现高危漏洞的能力
2.2 准确性与误报控制
- 准确率:有效漏洞数 / 总提交数 × 100%
- 误报率:错误提交数 / 总提交数 × 100%
- 漏报率:未发现的预设漏洞数 / 总预设漏洞数 × 100%
- 验证时间:从提交到验证确认的平均时间
2.3 成本效益分析
成本对比不能仅计算小时费率。ARTEMIS 研究中 AI 成本为 $18 / 小时,人类为 $60 / 小时,但这一计算忽略了:
- 设置成本:AI 需要环境配置、模型微调
- 维护成本:AI 系统持续更新和监控
- 机会成本:人类测试员的经验积累和知识传递
建议采用全生命周期成本模型:
总成本 = (小时费率 × 测试时长) + 设置成本 + 维护成本 + 培训成本 + 机会成本
2.4 创造性能力评估
人类测试员的优势在于创造性漏洞链接和非常规攻击路径。评估指标包括:
- 漏洞链长度:将多个漏洞串联形成攻击链的能力
- 攻击路径创新性:使用非标准方法绕过防御
- 上下文理解:根据业务逻辑定制攻击策略
- 社会工程能力:针对人员的攻击技巧
2.5 任务类型表现差异
必须区分不同任务类型的表现:
- CLI 任务:命令行扫描、漏洞利用、权限提升
- GUI 任务:Web 应用测试、图形界面交互
- 混合任务:需要 CLI 和 GUI 结合的攻击
- 创造性任务:无明确路径的探索性测试
三、统计显著性检验与偏差控制方法
对比实验的结果必须经过严格的统计检验才能得出可靠结论。ARTEMIS 研究虽然提供了丰富数据,但缺乏系统的统计显著性分析。
3.1 样本量与统计功效
对于二组对比实验,建议样本量计算如下:
所需样本量 = 2 × [(Zα + Zβ)² × σ²] / δ²
其中:
Zα = 显著性水平对应的Z值(通常1.96对应α=0.05)
Zβ = 统计功效对应的Z值(通常0.84对应β=0.20)
σ = 标准差(基于预实验数据)
δ = 期望检测的最小差异
基于渗透测试的典型变异,建议每组至少 10 名参与者,总样本量 20-30。
3.2 假设检验框架
建立以下假设检验体系:
- 主要假设 H1:AI 代理在漏洞发现数量上不劣于人类测试员
- 次要假设 H2:AI 代理在成本效益上优于人类测试员
- 探索性假设 H3:AI 与人类在不同任务类型上存在互补性
检验方法:
- 连续变量:使用独立样本 t 检验或 Mann-Whitney U 检验
- 分类变量:使用卡方检验或 Fisher 精确检验
- 多变量分析:使用多元方差分析(MANOVA)
3.3 偏差识别与控制
实验设计中必须识别并控制以下偏差:
选择偏差:通过随机分配参与者和双盲设计控制。实验组织者不应知道具体分配情况,评估者不应知道提交来源。
测量偏差:建立标准化的漏洞验证流程,由至少两名独立评估者交叉验证。使用 Cohen's Kappa 系数评估评估者间一致性,要求 Kappa ≥ 0.8。
时间偏差:所有测试在同一时间段进行,避免网络状态变化影响。建议在 24 小时内完成所有测试。
学习效应偏差:如果进行多轮测试,采用交叉设计(crossover design),一半参与者先使用 AI 辅助,另一半先纯人工测试。
3.4 效应大小计算
除了统计显著性,必须计算效应大小(effect size)以评估实际差异的重要性:
- 连续变量:使用 Cohen's d,其中 d=0.2 为小效应,d=0.5 为中等效应,d=0.8 为大效应
- 分类变量:使用 Cramer's V 或 Phi 系数
- 相关性:使用 Pearson's r 或 Spearman's ρ
四、可落地参数框架与实施清单
基于上述分析,提出以下可立即实施的参数框架:
4.1 实验配置参数
experiment_config:
environment:
total_hosts: 8000
subnets: 12
os_distribution:
unix: 40%
windows: 30%
iot: 20%
embedded: 10%
preset_vulnerabilities: 120 # 1.5%密度
participants:
human_count: 10
human_qualifications: ["OSCP", "2+ years experience"]
ai_frameworks: ["ARTEMIS", "Codex", "CyAgent", "2 custom"]
timing:
total_duration: "10h"
human_breaks: "15m every 2h"
ai_continuous: true
phases: ["recon", "enumeration", "exploitation", "reporting"]
4.2 评估指标权重
建立加权评分体系,反映不同指标的重要性:
# 评估权重配置
weights = {
"vulnerability_count": 0.25, # 漏洞数量
"vulnerability_severity": 0.20, # 漏洞严重性
"accuracy_rate": 0.15, # 准确率
"false_positive_rate": 0.10, # 误报率(负向)
"cost_efficiency": 0.15, # 成本效益
"creativity_score": 0.15 # 创造性
}
# 综合得分计算
def calculate_score(results, weights):
normalized_scores = {}
for metric, value in results.items():
# 标准化处理
if metric == "false_positive_rate":
normalized = 1 - value # 误报率越低越好
else:
normalized = value / max_possible[metric]
normalized_scores[metric] = normalized * weights[metric]
return sum(normalized_scores.values())
4.3 实施检查清单
在实验开始前,必须完成以下检查:
环境准备检查:
- 网络拓扑图完整且准确
- 所有预设漏洞已部署并记录
- 防御系统处于标准配置状态
- 监控系统就绪,记录所有测试活动
参与者准备检查:
- 人类测试员已完成 NDA 和授权协议
- AI 代理已完成环境适配和基线测试
- 所有参与者获得相同的环境介绍文档
- 紧急停止机制已测试可用
工具与访问检查:
- 工具权限矩阵已配置并验证
- 网络访问控制列表(ACL)已应用
- 日志收集系统已校准
- 数据备份机制已就绪
评估流程检查:
- 漏洞验证团队已培训
- 评估标准文档已分发
- 双盲流程已测试
- 争议解决机制已建立
4.4 数据收集与报告模板
标准化数据收集确保结果可比性:
# 实验数据收集模板
## 基本信息
- 参与者ID: [自动生成]
- 参与者类型: [Human/AI]
- 测试时间段: [开始时间-结束时间]
- 工具使用记录: [工具列表]
## 漏洞发现记录
| 时间戳 | 漏洞ID | 漏洞类型 | CVSS评分 | 验证状态 | 备注 |
|--------|--------|----------|----------|----------|------|
## 性能指标
- 总提交数: [数字]
- 有效漏洞数: [数字]
- 误报数: [数字]
- 漏报数: [数字]
- 平均验证时间: [分钟]
## 成本记录
- 直接成本: [金额]
- 间接成本: [金额]
- 总成本: [金额]
五、结论与未来方向
构建公平的 AI - 人类渗透测试对比实验需要系统性的工程化方法。本文提出的框架从实验设计公平性、多维度评估指标、统计显著性检验到可落地参数清单,为这一复杂任务提供了完整的方法论支持。
关键发现包括:
- 环境控制必须平衡真实性与可控性,8000 主机网络是合理的基准规模
- 工具公平性是最大挑战,需要明确的权限矩阵和绕过规则记录
- 评估体系必须超越漏洞数量,包含质量、成本、创造性和任务类型差异
- 统计检验需要足够的样本量和严格的偏差控制,效应大小比单纯显著性更重要
未来研究方向包括:
- 长期对比研究:跟踪 AI 与人类能力的演进轨迹
- 混合团队评估:研究 AI 辅助人类测试员的最佳协作模式
- 领域特异性:针对云环境、IoT、工控系统等特定领域的对比方法
- 自动化评估:开发自动化的漏洞验证和评分系统
正如 ARTEMIS 研究作者在论文中指出:"AI agents offer advantages in systematic enumeration, parallel exploitation, and cost, but exhibit higher false-positive rates and struggle with GUI-based tasks." 这一观察强调了对比实验必须捕捉的能力差异的复杂性。只有通过严谨的方法论设计,我们才能获得对 AI 在网络安全中真实能力的准确理解,避免过度炒作或低估,为实际部署提供可靠依据。
资料来源
- Lin, J. W., et al. "Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing." arXiv:2512.09882 (2025).
- VerSprite. "AI Agents vs Humans in Penetration Testing: Insights from the ARTEMIS Study and Risks of Over-Reliance." (2025).
- Threat Intelligence. "Measuring the Impact of Penetration Testing with Metrics." (2023).