GPU碎片化感知调度：MIG环境下的资源优化实践

AI 训练集群的资源利用率长期困扰着基础设施团队。一块 A100 GPU 售价约 4 万美元，功耗高达 1000W，却在许多场景下处于半闲置状态。问题的核心不在于算力不足，而在于资源碎片化—— 当多租户共享 GPU 时，静态分区策略导致大量小容量片段无法被有效利用，形成 "有资源却分配不出去" 的困境。

MIG 环境下的碎片化特性

NVIDIA Multi-Instance GPU（MIG）技术通过硬件级分区提供了比 MPS 更强的资源隔离，但引入了独特的碎片化挑战。与传统 GPU 共享不同，MIG 仅支持固定数量的分区配置。以 A100 40GB 为例，有效配置仅限于 1g.5gb、2g.10gb、3g.20gb、4g.20gb 和 7g.40gb，不支持 5g 或 6g 等中间规格。

这种限制导致外部碎片化的新形态：即使单张 GPU 上存在连续的 4 个计算切片空闲，若其起始索引不为 0，仍无法创建 4g 实例。研究表明，两张剩余资源完全相同的 GPU，其可用性可能截然不同 —— 这彻底改变了传统碎片化问题的定义方式。

同时，内部碎片化源于 MIG 实例规格与作业需求的不匹配。当调度器为作业分配大于其实际需求的实例时，多余容量被锁定且无法重新分配，造成隐性浪费。

三管齐下的工程化方案

针对上述问题，学术界提出了一套可落地的在线调度框架，核心由三个机制协同运作：

条件负载均衡（Conditional Load Balancing）

引入阈值参数 t（实验建议设为0.4），将 GPU 动态分类为 "Lazy"（利用率低于 t）和 "Busy"（利用率高于 t）。调度器优先将新作业分配至 Lazy GPU，既缓解 PCIe 带宽和 TLB 等共享资源的争用，又避免过早将作业堆叠至同一设备。该阈值可根据集群负载特征调整：较低的 t 值倾向于尽早分散作业，较高的 t 值则优先最小化碎片化。

动态分区（Dynamic Partitioning）

摒弃静态 MIG 配置，根据实时需求动态创建和销毁实例。当作业请求 2g.10gb 实例时，系统按需划分精确匹配的切片，而非复用预先存在的更大实例。这从根本上消除了内部碎片化。实验表明，相比静态配置，动态分区可使平均等待时间降低至少 30%。

作业迁移（Job Migration）

在作业完成时触发迁移决策，包含两种模式：

Intra-GPU 迁移：当某 GPU 仍为 Busy 状态时，在设备内部重组作业布局，压缩碎片
Inter-GPU 迁移：当某 GPU 变为 Lazy 状态时，从其他 Busy GPU 迁入作业以平衡负载

迁移过程采用 "先创建新实例再终止旧实例" 的无缝切换策略，确保服务零中断。实测显示，启用迁移可使作业执行时间降低6%-10%（高负载场景下超过 10%）。

碎片化度量与监控

为实现可观测性，建议部署FragCost指标量化碎片化程度。该函数计算各 MIG 配置在理想情况下可创建的实例数与实际可行实例数的平均差异率，取值范围 0-1，越高表示碎片化越严重。

生产环境应监控以下关键指标：

各 GPU 的 FragCost 实时值
Lazy/Busy GPU 分布比例
动态重配置事件频率
作业等待时间分布

部署参数建议

基于实验验证，给出以下可直接落地的配置参考：

参数	建议值	说明
负载均衡阈值 t	0.4	确保 GPU 利用率达到 40% 前优先分散作业
MIG 实例规格	按需动态创建	避免预分配固定配置
迁移触发时机	作业完成时	减少运行时开销
碎片度量周期	每 30 秒	平衡精度与开销

预期收益与局限

综合三种技术的实验结果显示，作业总完成时间（makespan）可改善13%-35%，具体取决于负载特征。低到达率的工作负载因迁移机会更多，收益更为显著。

需要注意的是，MIG 的配置刚性仍是根本性约束 —— 即使采用最优调度，5g 和 6g 等需求仍无法满足。此外，PCIe 带宽和最后一级 TLB 的共享特性意味着，即使计算和内存资源已隔离，性能干扰仍可能发生。

对于运行多租户 AI 推理或训练服务的集群，这套碎片化感知调度方案提供了一条从 "静态分区" 向 "动态优化" 演进的可行路径。通过将负载均衡、动态分区与智能迁移相结合，可在不增加硬件投入的前提下，显著释放存量 GPU 的潜在算力。

资料来源

Ting et al., "An Online Fragmentation-Aware Scheduler for Managing GPU-Sharing Workloads on Multi-Instance GPUs", arXiv:2512.16099v1
Weng et al., "Scheduling GPU-Sharing Workloads with Fragmentation Gradient Descent", USENIX ATC 2023

ai-systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。