AI 基础设施的 GPU 利用率危机已成为行业共识。据 Grafana Labs 统计,约 30% 的云支出因过度配置而浪费;Microsoft Research 的实证研究更指出,深度学习作业的实际 GPU 利用率常低于 50%。面对这一问题,业界通常诉诸硬件分区(如 NVIDIA MIG)或虚拟化层(如 vGPU)来强制切分资源,但这些方案往往增加调度复杂度,且难以解决根本问题:用户在提交作业前对资源需求的误判。
Expanse(YC P26)选择了一条不同的路径 —— 不依赖硬件切片,而是通过「智能层」预测作业的实际资源需求,在调度前完成资源右置(right-sizing),从而聚合跨租户的闲置算力。本文解析其技术架构与可落地的工程参数。
问题本质:预测误差导致的资源浪费
传统 HPC 与云原生调度器(SLURM、Kubernetes)要求用户在提交作业时声明所需的 GPU 数量、内存上限和运行时长。这种「先声明后执行」的模式存在三重缺陷:
- 过度配置保险:用户倾向于高估资源需求以避免运行时失败,形成系统性浪费
- 失败成本高昂:资源估算错误导致的作业中断常在运行数小时后发生,已消耗的 GPU 时间无法回收
- 优化门槛高:准确的资源估算需要理解内存模式、批处理策略、GPU 线程与 CPU 向量化等底层细节,普通研究者难以掌握
Expanse 的核心洞察是:通过分析代码结构与历史遥测数据,可以在作业提交前预测其实际资源需求与失败概率,从而将「猜测式配置」转化为「数据驱动式配置」。
技术架构:三层预测模型
Expanse 采用本地部署架构(on-cluster deployment),所有分析在客户网络内完成,代码与遥测数据不出境。其技术栈包含三个核心组件:
1. 多模态资源预测器
基于 EPCC(爱丁堡并行计算中心)的研究成果,Expanse 构建了首个多模态 HPC 资源预测模型。该模型同时摄入:
- 代码特征:通过静态分析提取模型架构、层数、参数量、数据加载模式
- 历史遥测:GPU 利用率、内存占用、PCIe 带宽、CPU-GPU 同步开销的时间序列
- 集群状态:队列深度、节点负载、网络拓扑
预测输出包括:建议的 GPU 数量、内存配置、预估运行时长。据 Y Combinator 披露,该模型在基准测试中超越了所有已发表方案。
2. 失败预测引擎
通过分析历史作业代码与遥测模式,模型可识别出高概率失败的作业特征(如内存泄漏模式、不兼容的 CUDA 版本、数据路径错误)。在作业进入调度队列前拦截潜在失败,避免数小时的无效 GPU 占用。
3. 代码级优化建议
不同于仅提供资源配置建议,Expanse 进一步分析代码实现,输出可执行的优化建议:
- 批处理大小调整
- 数据加载器并行度优化
- GPU 内核融合机会
- CPU 向量化建议
工程化参数与实施清单
对于希望构建类似能力的平台团队,以下参数可作为实施参考:
资源预测阈值
- 置信度阈值:当模型置信度低于 85% 时,回退到保守估计(用户声明值的 90%)
- 误差容忍:预测内存需求时预留 15% 缓冲,预测时长时预留 20% 缓冲
- 反馈循环:每完成 100 个作业,重新校准模型权重
失败预测策略
- 高风险阈值:失败概率 > 70% 的作业强制进入人工审核队列
- 中风险标记:失败概率 40-70% 的作业附加警告标签,允许用户覆盖
- 特征监控:重点监控 OOM 模式、NCCL 超时、检查点写入失败三类特征
优化建议优先级
- P0(立即执行):内存优化、数据加载瓶颈
- P1(建议执行):批处理调整、混合精度配置
- P2(可选执行):内核融合、通信优化
部署架构
- 数据本地化:模型推理完全在客户 VPC / 集群内执行
- 遥测采样:每 30 秒采集一次 GPU 指标,保留 90 天历史数据
- API 延迟:预测接口响应时间控制在 500ms 以内,避免阻塞提交流程
与硬件分区方案的互补性
Expanse 的预测式优化与 NVIDIA MIG 等硬件分区技术并非竞争关系,而是互补:
- MIG 解决的是「如何切分」:通过硬件隔离实现多作业并发,但无法解决「该切多少」的问题
- Expanse 解决的是「该切多少」:通过预测确定最优资源配置,使 MIG 的切片粒度更精准
理想架构是将 Expanse 作为调度前置层:先通过预测确定资源需求,再映射到 MIG 的预定义配置(如 1g.10gb、2g.20gb),避免过度切片导致的碎片化。
局限与风险
- 冷启动问题:新类型作业缺乏历史数据时,预测准确率下降,需依赖保守估计
- 模型漂移:框架版本升级(如 PyTorch 2.x → 3.x)可能导致历史模式失效,需建立版本感知的特征工程
- 隐私边界:虽然 Expanse 承诺数据本地化,但代码静态分析可能触及敏感算法逻辑,需在组织层面建立审查机制
结语
Expanse 代表了一种从「硬件切片」向「智能预测」演进的资源优化范式。在 AI 基础设施支出预计 2026 年达到 2.52 万亿美元的背景下,通过预测式分析回收 30% 的浪费支出,其商业价值与技术价值同样显著。对于运维大规模 GPU 集群的团队,构建或引入类似的预测层,可能是比单纯扩容更具成本效益的选择。
资料来源
- Y Combinator Launch: Expanse - Unlock wasted GPU capacity (2026)
- Microsoft Research: An Empirical Study on Low GPU Utilization of Deep Learning Jobs
- Grafana Labs: How to Optimize Resource Utilization with Kubernetes Monitoring (2023)
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。