设计跨平台 GPU 失控进程强制回收工具：参数化终止与 Guard Mode 策略引擎

在 AI/ML 训练与推理场景中，失控进程占用 GPU 资源已成为运维常态。传统方案如 nvidia-smi + kill -9 仅适用于 NVIDIA 单一生态，且缺乏策略控制与审计能力。开源工具 gpu-kill（kagehq）以跨平台、多厂商、策略化为核心，提供了一套完整的命令行解决方案。本文聚焦其 “参数化终止” 与 “Guard Mode 策略引擎”，给出可直接落地的工程实践。

一、参数化终止：精准控制 kill 行为

gpu-kill 的核心能力之一是通过命令行参数精确控制终止行为，避免粗暴 kill 导致的数据丢失或系统不稳定。其关键参数如下：

--kill --pid <PID>：指定进程 ID 终止。适用于已知失控进程的精准打击。
--force：强制终止，绕过进程的优雅退出信号。当进程已无响应时使用。
--reset --gpu <GPU_INDEX>：重置指定 GPU 设备。当驱动层卡死、进程无法 kill 时，此操作可恢复硬件状态。
--remote <HOST>：通过 SSH 在远程主机执行 kill 或 reset。适用于分布式训练集群的集中管理。

实际操作中，推荐 “先尝试优雅终止，失败再强制” 的两阶段策略：

# 第一阶段：尝试发送 SIGTERM（默认行为）
gpukill --kill --pid 12345

# 等待 5 秒后若进程仍在
# 第二阶段：强制发送 SIGKILL
gpukill --kill --pid 12345 --force

对于完全无响应的 GPU，可直接重置硬件：

# 重置 GPU 0，通常需要 root 权限
gpukill --reset --gpu 0 --force

二、Guard Mode 策略引擎：自动化防御与审计

参数化终止是 “事后补救”，而 Guard Mode 则是 “事前预防”。它是一个内置的策略引擎，可定义规则自动检测并阻止异常行为。

启用 Guard Mode：

# 启用守护模式
gpukill --guard --guard-enable

Guard Mode 支持两类核心策略：

资源限制策略：例如，限制单个用户进程的显存使用不超过 8GB。一旦超限，自动 kill 或告警。
行为检测策略：例如，检测进程名包含 “miner” 或 CPU/GPU 利用率长期处于 99% 的挖矿行为。

策略配置通过 --guard-test-policies 参数进行安全测试，确保规则无误后再正式启用。其底层依赖 --audit --rogue 命令进行威胁扫描，该命令会分析进程行为模式，标记可疑活动。

三、安全与监控最佳实践

审计先行：在执行任何 kill 操作前，先运行 gpukill --audit --rogue，确认目标进程确为异常。避免误杀关键服务。
最小权限：日常操作使用普通用户权限；仅在 --reset 等硬件操作时提权。降低安全风险。
日志记录：所有 kill 和 reset 操作均被工具内部记录。结合其 Web Dashboard（需另行启动 backend 与 frontend），可实现操作审计与可视化监控。

远程批量管理：在集群环境中，通过 --remote 参数配合主机列表文件，可编写脚本批量清理多台机器：

# hosts.txt 包含主机名列表
while read host; do
  gpukill --remote "$host" --kill --pid 12345 --force
done < hosts.txt

四、多厂商兼容性与构建优化

gpu-kill 支持 NVIDIA、AMD、Intel 及 Apple Silicon，其底层通过各厂商的驱动接口（如 NVML、ROCm）获取进程与设备信息。构建时推荐使用 --profile release-fast，在 28 秒内完成编译，平衡了开发效率与运行性能。

综上，gpu-kill 不仅是一个 “kill 工具”，更是一个集检测、防御、审计、远程管理于一体的 GPU 资源治理平台。通过参数化控制与 Guard Mode 策略，开发者和运维人员可安全、高效地回收失控进程，保障 GPU 集群的稳定运行。