构建130k节点最大K8s集群：联邦控制平面设计、分层网络与自定义调度器零中断扩展

在 GKE（Google Kubernetes Engine）环境中构建 130k 节点的最大 K8s 集群，需要解决控制平面瓶颈、网络开销和调度复杂性等问题。核心方案是采用联邦控制平面（Federated Control Plane）设计，将单一巨型集群拆分为多个区域子集群，通过联邦层统一管理，实现逻辑上的统一大集群，同时保持物理隔离的高可用性。这种设计不仅规避了 etcd 在超大规模下的性能极限，还支持跨区负载均衡和零中断扩展。

联邦控制平面的核心是使用 Kubernetes Federation v2（或 Karmada 等现代实现）构建分层架构。顶层联邦控制平面（Federation Control Plane）托管在专用 GKE 集群中，包含联邦 API Server、联邦 Controller Manager 和联邦 Scheduler。这些组件通过跨集群 API 代理与底层子集群交互。底层子集群每个管理 10k-20k 节点，总计 130k 节点分布在多个 Google Cloud 区域（如 us-central1、europe-west4）。联邦 API Server 使用 Spanner-backed 存储替换传统 etcd，支持无限规模和低延迟状态同步。根据 Google 官方博客，GKE 已将控制平面从 etcd 迁移至 Spanner，实现 65k 节点集群的稳定运行，此设计可线性扩展至 130k。

证据显示，这种联邦拓扑在生产中验证有效：Google Cloud 的 GKE 支持单集群 65k 节点，通过 Spanner 提供高一致性 KV 存储，避免 etcd 的单点瓶颈；联邦层确保跨子集群资源抽象统一，用户无需感知底层拓扑变更。

分层网络叠加是另一关键，使用 Cilium 或 Calico 实现 hierarchical VNI（VXLAN Network Identifier）。底层子集群内采用 L3 网络（IP-in-IP 或 VXLAN），Pod CIDR 为 / 16（65k IP），跨子集群通过联邦 Service/Ingress 暴露，使用 Global Load Balancer（GLB）+Anycast IP 实现跨区均衡。分层设计参数：一级 VNI（子集群内，1-1000），二级 VNI（联邦层，1001-2000），支持 BGP peering 与 GCP Premium Network Tier。网络策略（NetworkPolicy）分层应用：子集群内严格 E/W 流量控制，联邦层仅允许 Service 端口。监控点：Cilium Hubble UI 观察跨层延迟 < 50ms，丢包率 < 0.1%。

自定义调度器确保零中断扩展。默认 kube-scheduler 在 130k 规模下易受噪声邻居影响，故部署自定义调度器 Pod（schedulerName: custom-large-scale），集成插件：PodTopologySpread（跨 AZ 均匀分布）、VolumeTopology（亲和 PersistentVolume 区域）、CustomPredicate（节点负载 <70%、GPU/TPU 亲和）。扩展流程：1）Cluster Autoscaler 分批扩容（batch size=500 节点，cooldown=5min）；2）自定义调度器优先低负载子集群；3）Federation Scheduler 同步 Deployment replicas，实现滚动更新（maxUnavailable=5%）。回滚策略：Prometheus 警报阈值（Pod pending>10min）触发 Drain 节点，回滚至稳定版本。

可落地参数清单：

联邦控制平面：3 节点 HA GKE Autopilot，Spanner 实例 db-class=Standard-HA，replicas=5。
子集群：每个 15k 节点，max-pods-per-node=110，Pod 密度 = 256/node。
网络：Cilium 1.14+，hubble-relay 暴露，BPF masquerade 开启；GLB 健康检查 interval=10s。
调度器：Descheduler cronJob（every 30min，evict noisy pods），VPA 推荐模式（CPU 80%、Memory 75%）。
监控：GKE Dataplane V2 + Cloud Monitoring，SLO 目标：99.99% API 可用，扩展时间 < 15min/10k 节点。
风险缓解：多联邦控制平面（active-passive），跨区域备份 etcd snapshot（虽用 Spanner 仍保留兼容）。

实际部署中，先在 staging 联邦 2 个 10k 子集群验证，再渐进扩展。引用 Kubernetes 大型集群指南：“节点总数不超过 5k 为标准，GKE 扩展需垂直缩放控制平面。” 此联邦方案突破极限，实现生产级 130k 集群。

资料来源：

Google Cloud Blog: GKE 65k Nodes and Beyond
Kubernetes Docs: Large Clusters & Federation