Hotdry.
ai-systems

实时供应链攻击检测与响应系统架构:执行上下文、多战术分析与无代理扫描

针对Shai-Hulud 2.0等供应链攻击,构建基于执行上下文、多战术阈值检测和无代理SBOM扫描的实时监控与响应系统架构。

供应链攻击检测的工程化挑战

2025 年的 Shai-Hulud 2.0 供应链攻击事件揭示了传统安全防御的局限性:攻击者通过恶意修改 npm 包的 preinstall 脚本,在 CI/CD 管道中执行凭证窃取和横向移动。这类攻击的特点在于其隐蔽性自动化传播能力—— 恶意代码在依赖安装阶段即开始执行,而传统的静态扫描和基于签名的检测往往滞后于攻击的实际发生。

实时检测供应链攻击面临三个核心挑战:事件关联性行为上下文理解响应时效性。孤立的安全事件(如 "TruffleHog 执行" 或 "GitHub API 调用")单独看可能无害,但在特定的执行上下文中组合出现时,却构成了完整的攻击链。Datadog 的安全研究指出:"检测到 TruffleHog 的执行与确定它是在 npm 包安装上下文中执行是完全不同的两件事"。

执行上下文架构:eBPF 传感器与事件关联机制

eBPF 传感器的执行上下文定义

执行上下文(Execution Context)是现代运行时安全检测的核心概念。它通过 eBPF(Extended Berkeley Packet Filter)传感器在操作系统内核层面捕获进程行为,并将相关事件逻辑分组。在供应链攻击检测中,关键的执行上下文起点是包安装操作

Datadog Workload Protection 使用 SECL(Security Language)定义执行上下文启动条件。以下是一个简化的示例规则,用于标记恶意包安装的执行上下文开始:

exec.file.name in [~"node", ~"npm"] &&
(
    process.args =~ "* install *" ||
    process.args =~ "* add *" ||
    process.args =~ "* i *"
) &&
${process.correlation_key} in ["", ~"cgroup_*", ~"auid_*"]

当检测到npm install或类似命令时,系统会生成一个唯一的关联键(如package_install_${uuid4}),该键将继承给该进程树中的所有子进程。这意味着后续的任何安全事件(如凭证访问、发现扫描、数据外泄)如果发生在同一进程树中,都会携带相同的关联键。

关联键的继承与传播机制

关联键的继承机制确保了攻击链的完整性追踪。在 Shai-Hulud 2.0 攻击中,攻击链通常如下:

  1. npm install → 设置package_install_abc123关联键
  2. 恶意脚本执行 Bun 运行时 → 继承package_install_abc123
  3. TruffleHog 扫描凭证 → 继承package_install_abc123
  4. GitHub API 调用外泄数据 → 继承package_install_abc123

通过这种机制,原本孤立的事件被串联成完整的 "攻击故事"。Datadog 的实践表明,这种上下文感知的检测方法能够将简单的原子检测提升为复杂的攻击模式识别。

多战术分析与阈值检测策略

战术分类与计数机制

MITRE ATT&CK 框架将攻击行为分类为不同的战术(Tactics),如初始访问、执行、持久化、权限提升、防御规避、凭证访问、发现、横向移动、收集、命令与控制、外泄、影响。在供应链攻击检测中,关键战术包括:

  • 凭证访问(Credential Access):TruffleHog 扫描、密钥库访问
  • 发现(Discovery):系统信息收集、网络扫描
  • 横向移动(Lateral Movement):通过窃取凭证访问其他系统
  • 外泄(Exfiltration):数据发送到攻击者控制端点

后端检测规则通过关联键分组事件,并计算不同战术的数量。一个典型的检测规则如下:

queries:
  - query: '@process.variables.correlation_key:(package_install*) tactic:*'
    groupByFields:
      - '@cgroup.id'
      - '@process.variables.correlation_key'
    distinctFields:
      - tactic
    name: tactics_on_package_install
cases:
  - name: malicious_package_installation
    status: high
    condition: tactics_on_package_install > 2

阈值设定为 > 2 个不同战术是基于实际攻击模式的经验值。Shai-Hulud 2.0 攻击通常涉及至少 3 个战术:凭证访问(TruffleHog)、发现(系统扫描)和外泄(GitHub API 调用)。这种阈值策略平衡了检测灵敏度和误报率。

战术权重的动态调整

在实际部署中,简单的战术计数可能需要根据具体环境进行调整。工程化建议包括:

  1. 战术权重分配:关键战术(如凭证访问)赋予更高权重
  2. 时间窗口限制:仅在特定时间窗口内(如安装后 5 分钟内)发生的战术才计入
  3. 环境基线校准:根据正常开发活动建立基线,减少误报

Microsoft 的检测数据显示,在 Shai-Hulud 2.0 攻击中,从包安装到完整攻击链完成通常在 3-7 分钟内,这为时间窗口设定提供了参考。

无代理扫描与 SBOM 生成技术

无代理代码扫描架构

传统运行时检测的局限性在于需要恶意代码实际执行才能被发现。Microsoft Defender for Cloud 引入的无代理代码扫描(Agentless Code Scanning)解决了这一问题。该技术通过以下方式工作:

  1. 后台 SBOM 生成:扫描文件系统和源代码仓库,自动生成软件物料清单
  2. 离线包分析:将发现的包与已知恶意包数据库比对
  3. 依赖图构建:建立包依赖关系图,识别间接依赖风险

无代理扫描的关键优势在于解耦安全分析与运行时执行。即使恶意包从未被执行,只要存在于文件系统中,就能被检测到。这对于 CI/CD 管道特别重要,因为构建环境可能包含从未在生产中运行的测试依赖。

SBOM 的实时查询与威胁狩猎

生成的 SBOM 不仅用于静态分析,还支持实时威胁狩猎。Microsoft Cloud Security Explorer 允许安全团队执行图查询,例如:

// 查找包含恶意包的所有容器镜像
ExposureGraphEdges
| where EdgeLabel == 'contains'
| where SourceNodeCategories has 'container_image'
| where TargetNodeCategories has 'software_package'
| where TargetNodeName in (malicious_packages_list)

这种图查询能力使安全团队能够:

  • 可视化攻击半径:立即看到哪些资产受到影响
  • 追踪依赖传播:了解恶意包如何通过间接依赖传播
  • 优先级修复:基于资产关键性和风险评分确定修复顺序

攻击路径分析与实时响应工作流

暴露图与攻击路径分析

攻击路径分析(Attack Path Analysis)通过构建暴露图(Exposure Graph)来模拟攻击者可能采取的路径。在供应链攻击场景中,关键路径包括:

  1. 代码仓库到密钥库路径:恶意包 → 窃取凭证 → 访问密钥管理服务
  2. CI/CD 代理到云资源路径:受感染的运行器 → 横向移动到生产环境
  3. 开发环境到生产环境路径:本地开发依赖 → 构建管道 → 部署

Microsoft 提供的查询示例展示了如何查找从受感染机器到密钥管理服务的路径:

let T_src2Key = ExposureGraphEdges
| where EdgeLabel == 'contains'
| where SourceNodeCategories has_any ('code_repository', 'virtual_machine')
| where TargetNodeCategories has 'secret'
| project SourceNodeId, SourceNodeLabel, keyNodeId=TargetNodeId;

实时响应工作流与自动化

检测到供应链攻击后,实时响应工作流应包括以下阶段:

阶段 1:立即遏制(0-5 分钟)

  • 自动隔离受感染的 CI/CD 运行器
  • 暂停相关的构建和部署管道
  • 撤销受影响的身份凭证

阶段 2:调查分析(5-30 分钟)

  • 执行自动化的攻击链重建
  • 识别所有受影响资产
  • 评估数据外泄范围

阶段 3:修复恢复(30 分钟 - 24 小时)

  • 轮换所有可能暴露的凭证
  • 清理恶意包和依赖
  • 恢复服务并验证完整性

Microsoft Security Copilot 等工具提供了预构建的提示本(Promptbooks),用于自动化这些响应任务,包括 "事件调查"、"用户分析" 和 "漏洞影响评估"。

工程化实施参数与监控清单

关键性能指标与阈值

实施实时供应链攻击检测系统时,应监控以下关键指标:

  1. 检测延迟:从攻击开始到警报生成的时间,目标 < 3 分钟
  2. 关联准确率:正确关联事件的百分比,目标 > 95%
  3. 误报率:错误警报的比例,目标 < 5%
  4. 响应时间:从警报到初始遏制的时间,目标 < 5 分钟

部署配置清单

eBPF 传感器配置:

  • 启用进程执行、文件系统、网络事件监控
  • 配置包安装检测规则,覆盖所有包管理器(npm, pip, gem, etc.)
  • 设置关联键继承深度限制,避免性能影响

无代理扫描设置:

  • 配置定期扫描频率:关键资产每 4 小时,非关键资产每天
  • 设置 SBOM 生成资源配额:CPU 限制、内存限制
  • 定义恶意包数据库更新策略:自动每日更新

响应自动化规则:

  • 定义高置信度警报的自动隔离规则
  • 配置凭证轮换工作流触发条件
  • 设置通知升级策略:Slack/Teams 即时通知,邮件摘要

持续优化与调优

系统部署后需要持续监控和优化:

  1. 误报分析:定期审查误报,调整检测规则和阈值
  2. 攻击模拟:定期进行红队演练,测试检测覆盖范围
  3. 性能监控:监控 eBPF 传感器对系统性能的影响
  4. 规则更新:根据新的攻击模式更新检测规则

架构演进与未来方向

当前架构主要针对已知的供应链攻击模式,未来演进方向包括:

机器学习增强检测:使用行为分析识别异常包安装模式,而不仅依赖规则匹配。

跨环境关联:将开发环境、CI/CD 管道和生产环境的监控数据关联,提供端到端的攻击链可视性。

供应链完整性验证:集成软件出处证明(Provenance)和签名验证,在依赖安装前验证包完整性。

社区威胁情报共享:建立行业共享的恶意包数据库和检测规则库。

总结

实时供应链攻击检测与响应系统需要多层防御策略的深度集成。执行上下文架构通过 eBPF 传感器提供细粒度的运行时行为监控;多战术分析将孤立事件转化为连贯的攻击故事;无代理扫描在攻击执行前识别威胁;攻击路径分析提供风险可视化和优先级指导。

工程化实施的关键在于平衡检测灵敏度与系统性能,通过合理的阈值设定、自动化响应工作流和持续优化机制,构建能够应对 Shai-Hulud 2.0 等复杂供应链攻击的防御体系。随着攻击技术的演进,检测系统也需要不断适应,但核心原则 —— 上下文感知、多层防御和自动化响应 —— 将保持其重要性。


资料来源:

  1. Datadog Security Labs. "A runtime security approach to detecting supply chain attacks." 2025-11-05
  2. Microsoft Security Blog. "Shai-Hulud 2.0: Guidance for detecting, investigating, and defending against the supply chain attack." 2025-12-09
查看归档