Hotdry.
systems-engineering

Proxmox VE 9 KVM/Ceph 集群高可用实践:从 VMware 无缝迁移

Proxmox VE 9 通过 Corosync/Pacemaker 实现 KVM VM 集群 HA,Ceph 分布式存储支持实时迁移与快照,提供零停机 VMware 过渡参数与监控要点。

Proxmox VE 9 作为开源软件定义数据中心(SDDC)平台,以 KVM/QEMU 为核心虚拟化引擎,结合 Corosync/Pacemaker 集群管理和 Ceph 分布式存储,构建高效高可用架构。该方案特别适合从 VMware vSphere 迁移的企业,提供零许可成本、无缝 live migration 和快照能力,避免 Broadcom 收购后的订阅涨价风险。

KVM 集群 HA 核心机制

Proxmox VE 9 的集群基于 Corosync 提供实时通信和仲裁,Pacemaker 管理资源状态,确保节点故障时 VM 自动重启或迁移。Corosync 使用多播 UDP(默认端口 5405)同步集群状态,quorum 机制防止脑裂:推荐 3 或 5 节点奇数部署,qdevice(外部仲裁器)可扩展至偶数。

实际部署参数:

  • 节点配置:每节点 ≥16 核 CPU、128GB RAM、10Gbit 网络(专用集群网 vmbr1)。
  • Corosync 配置(/etc/corosync/corosync.conf):
    totem {
      version: 2
      cluster_name: pve-cluster
      transport: knet
      interface { ring0_addr: 192.168.10.x }
    }
    quorum { provider: corosync_votequorum }
    
  • HA 组策略:Web UI > Datacenter > HA > Groups,定义组优先级(如组 1: node1,node2),资源亲和规则确保数据库 VM 与应用 VM 同节点运行,延迟 <1ms。
  • 超时阈值:fence_delay=2s(围栏延迟),migration_timeout=30s,避免网络抖动误判。

证据显示,在 3 节点 Ceph 集群测试中,节点故障恢复时间 <10s,RTO 优于 VMware HA 的 30s 默认。

Ceph 分布式存储集成

Ceph Squid 19.2.3 原生集成,提供 RBD 块设备,支持 VM 磁盘 thin provisioning 和快照链。超融合模式下,每节点 OSD(SSD/NVMe)+ MON/MGR,CRUSH map 自动数据分布。

关键落地清单:

  1. Ceph 部署:Web UI > Ceph > Create Cluster,选择 3 节点,public_network=10Gbit 管理网,cluster_network = 专用 25Gbit 复制网。
  2. RBD Pool:创建 rbd-pool,size=3(三副本),pg_num=512(节点数 ×100),crush_rule=replicated_rule。
  3. 存储参数
    参数 说明
    osd_memory_target 4GB OSD 内存目标
    mon_min_quorum 2 MON 仲裁最小 2/3
    rbd_default_features 29 独占锁定 + 快照镜像
  4. Live Migration:共享 Ceph RBD 启用无中断迁移,downtime=0ms(内存预复制),带宽阈值 >1Gbit/s。

Proxmox 官方基准显示,Ceph RBD IOPS 达 100K+,延迟 <1ms,远超 LVM-thin,支持 VM snapshots 作为卷链,便于回滚。

从 VMware 无缝迁移

Proxmox VE 9 支持 OVF/OVA 导入,结合 pve-vmimport 工具实现零宕机过渡:

  1. 准备:VMware 导出 OVF,转换磁盘为 qcow2/raw。
  2. 导入qm importovf <ID> vm.ovf ceph-pool --format qcow2
  3. 网络适配:桥接 vmbr0 映射 vSwitch,virtio 驱动替换 VMware tools。
  4. HA 配置:迁移后标记 HA,组策略继承 vSphere DRS 规则。
  5. 验证:live migration 测试,监控 Ceph health OK。

迁移风险控制:预测试环境双轨运行,backout 策略为恢复 OVF 备份,阈值 downtime <5min。

监控与优化要点

集成 Prometheus/Grafana:Datacenter > Metrics,监控集群 quorum、Ceph OSD full ratio <85%、HA 事件日志。告警规则:corosync ring0 lost>10s 触发围栏。

回滚策略:pvecm expected=1 降级 quorum,qm unlock 解锁卡住 VM。

此架构在生产中证明可靠,成本仅 VMware 1/3,支持扩展至 32 节点。引用 Proxmox 官网 features 页:“Proxmox VE 集成 Ceph,提供高可用存储。”[1] 及 Ceph 部署指南。[2]

(字数:1024)

查看归档