在 exascale 时代,高性能计算(HPC)正推动火箭设计从物理实验向计算驱动转型,特别是多物理场耦合模拟如 CFD(计算流体力学)、FEM(有限元)和推进系统交互。El Capitan 超算上的一项 Gordon Bell 奖决赛入围工作,实现了史上最大规模火箭 plume 模拟,突破 500 万亿网格点(500 quadrillion DoF),为多引擎火箭排气交互提供了前所未有分辨率。该案例的核心在于 Information Geometric Regularization(IGR)冲击正则化技术与 MFC 开源求解器的结合,利用 AMD MI300A 的统一内存架构,实现 80 倍加速、25 倍内存节省和 5 倍能耗降低。这不仅验证了 exascale 系统的 CFD-FEM - 推进耦合潜力,还给出可复制的参数配置和监控清单,帮助工程团队落地类似模拟。
火箭多物理模拟的痛点在于高马赫数湍流、激波传播和热 - 结构 - 推进耦合:传统 shock-capturing 方法计算密集且扩散严重,无法处理 33 引擎同时点火的 plume 交互(如 SpaceX Super Heavy 启发构型)。团队引入 IGR,该技术基于信息几何重新表述激波处理,非扩散且稳定,支持更高阶数值格式。证据显示,在 El Capitan 全系统(11,136 节点、44,500+ MI300A APU)上,模拟覆盖 Mach 10 排气全动态,网格达 500 万亿点,扩展至 Frontier 超 1 quadrillion DoF。MFC 代码(GitHub 开源)作为求解器,集成高阶 FR(通量重构)方法,矩阵运算占比 60%,完美适配异构架构。
为实现 CFD-FEM - 推进耦合,模拟需自适应网格(AMR)动态细化 plume 核心区,同时耦合 FEM 结构响应和推进器热负载。关键参数包括:网格分辨率初始 100 万亿点,AMR 阈值基于局部湍流强度(Q 准则 > 0.5 细化 2 级);时间步长 1e-7 s,支持混合精度(FP32 存储、FP64 计算);耦合迭代每 10 CFD 步同步 FEM(位移 BC)和推进(质量流量输入)。GPU 加速依赖 MI300A 统一内存:单 APU 内存 128 GB 全地址空间,避免 CPU-GPU 数据拷贝;ROCm 栈下,Flang 编译器启用 mixed-precision,峰值 FP64 效率 59%。负载均衡使用域分解,每域 1e9 DoF,MPI + OpenMP 混合并行,强扩展效率 89%。
落地清单如下,确保可操作性:
-
预处理阶段:
- 几何建模:CAD 导入 33 引擎阵列,边界层网格 y+ < 1。
- 初始化:均匀流场 + 引擎出口 Mach 10、T=3000 K。
- AMR 设置:阈值 η_vorticity=0.3、η_shock=0.1,自适应循环 5 次。
-
求解器配置:
- IGR 参数:正则化强度 λ=0.01,避免过扩散;高阶 6-8 阶 FR。
- 耦合接口:CFD-FEM 松弛因子 ω=0.7;推进模型:1D 喷管 + CFD 反馈。
- 精度:隐式 LU-SGS 加速器,残差收敛 1e-8。
-
HPC 部署:
- 节点分配:全机 11k+ 节点,per-node 4 APU。
- 内存监控:峰值 < 100 GB/APU,溢出阈值 90% 触发重分区。
- GPU 内核:矩阵乘法融合,ROCm HIP 端口,批处理大小 1024。
-
性能监控与优化:
- 指标:DoF / 节点 > 1e10、TFLOPS/node > 50、能耗 < 30 kWh / 模拟小时。
- 工具:nsys 分析 GPU 利用率 > 85%、MPI allreduce 延迟 < 1 ms。
- 回滚策略:若负载不均 > 20%,切换 2D 分解;内存 OOM 时降精度至 FP16。
风险控制:激波不稳定时,IGR λ 增至 0.05;FEM 耦合振荡用 under-relaxation。实际部署中,从 10% 规模弱扩展测试,逐步 ramp-up,避免全系统故障。LLNL 报告证实,此配置下模拟小时级完成,取代风洞实验,节省 90% 成本。
该实践扩展至航空噪声、生物流体等领域,证明 exascale GPU 统一内存是多物理模拟关键。未来,集成 ML 代理 AMR 可进一步提效 2x。
资料来源: