跨 GPU/TPU/NPU 统一监控：zml-smi 工程实践与指标采集方案

在 AI 基础设施日益多元化的今天，运维团队面临的挑战已经从单一厂商 GPU 监控转向多硬件平台的统一可观测性。NVIDIA GPU、AMD GPU、Google TPU、AWS Trainium 等加速器的共存，使得传统的 nvidia-smi 等单一工具难以满足跨平台运维需求。zml-smi 作为 ZML 于 2026 年初发布的通用诊断工具，为这一痛点提供了工程化的解决方案。本文将从指标采集、可视化配置、告警策略三个维度，探讨跨设备统一监控的工程实现路径。

统一监控的技术架构与多设备适配

zml-smi 的核心设计理念是将原本分散在不同厂商工具中的监控能力统一到一个命令行界面。其技术实现依赖于各平台原生的管理库：NVIDIA 设备通过 NVML（NVIDIA Management Library）获取指标，这是业界最成熟的 GPU 监控接口，支持包括 A100、H100 在内的全系列数据中心 GPU；AMD 设备则调用 AMD SMI（System Management Interface），值得注意的是，该工具创新性地在构建时动态合并了 Mesa 和 ROCm 两套 GPU 识别文件，从而实现对最新硬件如 Ryzen AI Max+ 395 的即时支持；Google TPU 通过 gRPC 接口与 TPU 监控库通信，获取设备级利用率和内存状态；AWS Trainium 设备则使用亚马逊提供的私有 API 完成数据采集。这种设计使得运维人员无需在多套工具之间切换，降低了学习成本和脚本复杂度。

从部署角度来看，zml-smi 采用自包含二进制分发模式，仅依赖设备驱动和 GLIBC 运行时环境即可运行。这种轻量化设计特别适合容器化部署场景 —— 运维团队可以将二进制文件打包进监控镜像，在 Kubernetes 集群中以 DaemonSet 形式部署到每个计算节点，实现全集群的统一监控覆盖。与需要复杂依赖的监控方案相比，这种方式显著降低了运维复杂度。

关键指标采集参数与配置方案

针对跨平台监控场景，合理的指标采集参数是保证数据质量和系统性能平衡的关键。根据 zml-smi 的功能特性，建议将采集指标分为三个优先级层级。

第一层级为性能基线指标，适用于所有支持的硬件平台。GPU 利用率（ utilization）是衡量计算资源效率的核心指标，建议采集间隔设置为 1 秒，在大多数场景下既能捕捉到突发负载又不会产生过大的数据量；显存或等效内存使用率反映了模型推理和训练的显存压力，间隔同样建议 1 秒；温度指标对于预防热降频至关重要，建议 5 秒采集一次，考虑到温度变化相对缓慢，更短的间隔并无显著收益。

第二层级为功耗与健康状态指标。功耗数据对于成本分析和容量规划具有重要价值，建议 5 至 10 秒采集一次，具体取决于机房的散热能力和电费成本；硬件错误计数（如 ECC 错误、显存校正事件）应设置为告警级采集，一旦出现非零值即触发告警。

第三层级为进程级精细指标，用于定位具体 workload 的资源占用。此类指标数据量较大，建议仅在问题排查时启用，或通过采样方式降低开销。

在多设备混合环境中，一个实际可行的配置参数清单如下：采集线程建议设置为 CPU 核心数的 50%，避免与业务 workload 争抢计算资源；日志输出格式推荐使用 JSON，便于后续对接 Prometheus 或 Loki 等时序数据库；考虑到 TPU 和 Trainium 通常部署在云端 VPC 环境，网络超时阈值建议不低于 3 秒，以应对可能的网络抖动。

实时可视化与告警策略工程化

统一监控的价值不仅在于数据采集，更在于数据的可视化呈现和告警的及时响应。对于 zml-smi 采集的数据，推荐的展示方案是构建多面板 Grafana 仪表盘，按硬件厂商创建行级视图，每个厂商的指标使用统一的模板变量，实现一键切换。在同一面板内，应将利用率、显存、温度、功耗四个核心指标以折线图形式并列展示，便于运维人员快速发现异常关联 —— 例如当温度快速上升时，利用率往往同步下降，这通常是热降频的典型特征。

告警策略的制定需要遵循分层原则，避免告警疲劳。建议设置三级告警阈值： INFO 级别在指标超过基线 70% 时触发，提示运维人员关注但无需立即行动；WARNING 级别在 85% 时触发，建议准备资源扩容或调整负载分布；CRITICAL 级别在 95% 时触发，应立即通知值班人员并启动应急响应流程。值得注意的是，GPU 利用率的瞬时峰值往往不具代表性，建议使用滑动窗口算法（如 5 分钟平均）作为告警判断条件，过滤掉短暂尖峰带来的误报。

对于异构集群场景，告警规则的差异化配置尤为重要。NVIDIA GPU 可以沿用成熟的 DCGM 告警模板，AMD GPU 则需要根据 ROCm 驱动的具体版本调整阈值，TPU 设备的告警应与 Google Cloud Monitoring 系统对齐，确保跨平台运维体验的一致性。

总结与部署建议

跨 GPU、TPU、NPU 的统一监控已经成为 AI 基础设施运维的刚性需求。zml-smi 通过统一 CLI 接口、多后端适配器设计、轻量化部署模式，为这一场景提供了可落地的工程方案。在实际部署中，建议运维团队优先确认各节点硬件组合和驱动版本，配置合适的采集间隔和告警阈值，并建立与现有监控栈（如 Prometheus-Grafana 链路）的数据对接。初期可在小规模集群中验证功能覆盖度和数据准确性，确认满足运维需求后再逐步推广到生产环境。

资料来源

ZML 官方产品介绍：https://zml.ai
BotBeat 新闻报道：https://botbeat.news/news/zml-releases-universal-diagnostic-tool-for-gpus-tpus-and-npus-across-all-major-p-3619