Expanse 跨租户 GPU 闲置算力聚合：预测式资源优化与细粒度复用

AI 基础设施的 GPU 利用率危机已成为行业共识。据 Grafana Labs 统计，约 30% 的云支出因过度配置而浪费；Microsoft Research 的实证研究更指出，深度学习作业的实际 GPU 利用率常低于 50%。面对这一问题，业界通常诉诸硬件分区（如 NVIDIA MIG）或虚拟化层（如 vGPU）来强制切分资源，但这些方案往往增加调度复杂度，且难以解决根本问题：用户在提交作业前对资源需求的误判。

Expanse（YC P26）选择了一条不同的路径 —— 不依赖硬件切片，而是通过「智能层」预测作业的实际资源需求，在调度前完成资源右置（right-sizing），从而聚合跨租户的闲置算力。本文解析其技术架构与可落地的工程参数。

问题本质：预测误差导致的资源浪费

传统 HPC 与云原生调度器（SLURM、Kubernetes）要求用户在提交作业时声明所需的 GPU 数量、内存上限和运行时长。这种「先声明后执行」的模式存在三重缺陷：

过度配置保险：用户倾向于高估资源需求以避免运行时失败，形成系统性浪费
失败成本高昂：资源估算错误导致的作业中断常在运行数小时后发生，已消耗的 GPU 时间无法回收
优化门槛高：准确的资源估算需要理解内存模式、批处理策略、GPU 线程与 CPU 向量化等底层细节，普通研究者难以掌握

Expanse 的核心洞察是：通过分析代码结构与历史遥测数据，可以在作业提交前预测其实际资源需求与失败概率，从而将「猜测式配置」转化为「数据驱动式配置」。

技术架构：三层预测模型

Expanse 采用本地部署架构（on-cluster deployment），所有分析在客户网络内完成，代码与遥测数据不出境。其技术栈包含三个核心组件：

1. 多模态资源预测器

基于 EPCC（爱丁堡并行计算中心）的研究成果，Expanse 构建了首个多模态 HPC 资源预测模型。该模型同时摄入：

代码特征：通过静态分析提取模型架构、层数、参数量、数据加载模式
历史遥测：GPU 利用率、内存占用、PCIe 带宽、CPU-GPU 同步开销的时间序列
集群状态：队列深度、节点负载、网络拓扑

预测输出包括：建议的 GPU 数量、内存配置、预估运行时长。据 Y Combinator 披露，该模型在基准测试中超越了所有已发表方案。

2. 失败预测引擎

通过分析历史作业代码与遥测模式，模型可识别出高概率失败的作业特征（如内存泄漏模式、不兼容的 CUDA 版本、数据路径错误）。在作业进入调度队列前拦截潜在失败，避免数小时的无效 GPU 占用。

3. 代码级优化建议

不同于仅提供资源配置建议，Expanse 进一步分析代码实现，输出可执行的优化建议：

批处理大小调整
数据加载器并行度优化
GPU 内核融合机会
CPU 向量化建议

工程化参数与实施清单

对于希望构建类似能力的平台团队，以下参数可作为实施参考：

资源预测阈值

置信度阈值：当模型置信度低于 85% 时，回退到保守估计（用户声明值的 90%）
误差容忍：预测内存需求时预留 15% 缓冲，预测时长时预留 20% 缓冲
反馈循环：每完成 100 个作业，重新校准模型权重

失败预测策略

高风险阈值：失败概率 > 70% 的作业强制进入人工审核队列
中风险标记：失败概率 40-70% 的作业附加警告标签，允许用户覆盖
特征监控：重点监控 OOM 模式、NCCL 超时、检查点写入失败三类特征

优化建议优先级

P0（立即执行）：内存优化、数据加载瓶颈
P1（建议执行）：批处理调整、混合精度配置
P2（可选执行）：内核融合、通信优化

部署架构

数据本地化：模型推理完全在客户 VPC / 集群内执行
遥测采样：每 30 秒采集一次 GPU 指标，保留 90 天历史数据
API 延迟：预测接口响应时间控制在 500ms 以内，避免阻塞提交流程

与硬件分区方案的互补性

Expanse 的预测式优化与 NVIDIA MIG 等硬件分区技术并非竞争关系，而是互补：

MIG 解决的是「如何切分」：通过硬件隔离实现多作业并发，但无法解决「该切多少」的问题
Expanse 解决的是「该切多少」：通过预测确定最优资源配置，使 MIG 的切片粒度更精准

理想架构是将 Expanse 作为调度前置层：先通过预测确定资源需求，再映射到 MIG 的预定义配置（如 1g.10gb、2g.20gb），避免过度切片导致的碎片化。

局限与风险

冷启动问题：新类型作业缺乏历史数据时，预测准确率下降，需依赖保守估计
模型漂移：框架版本升级（如 PyTorch 2.x → 3.x）可能导致历史模式失效，需建立版本感知的特征工程
隐私边界：虽然 Expanse 承诺数据本地化，但代码静态分析可能触及敏感算法逻辑，需在组织层面建立审查机制

结语

Expanse 代表了一种从「硬件切片」向「智能预测」演进的资源优化范式。在 AI 基础设施支出预计 2026 年达到 2.52 万亿美元的背景下，通过预测式分析回收 30% 的浪费支出，其商业价值与技术价值同样显著。对于运维大规模 GPU 集群的团队，构建或引入类似的预测层，可能是比单纯扩容更具成本效益的选择。

资料来源

Y Combinator Launch: Expanse - Unlock wasted GPU capacity (2026)
Microsoft Research: An Empirical Study on Low GPU Utilization of Deep Learning Jobs
Grafana Labs: How to Optimize Resource Utilization with Kubernetes Monitoring (2023)

systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。