IBM 在 2025 年 12 月 8 日抛出 110 亿美元全现金报价,把 Confluent 收入囊中。交易价格每股 31 美元,对应 2025 年预期收入的 9.8 倍 —— 远高于同期软件行业 5.2 倍的中位数。溢价背后,IBM 的目标不是再买一个 “消息队列”,而是补齐 AI 时代最关键的实时数据供应链短板。Arvind Krishna 在投资者电话会上给出的定位很直接:“Confluent 将成为 watsonx 的血管,让生成式与代理式 AI 在混合云里先拿到干净、实时、可溯源的数据。”
从集群孤岛到 Streaming Mesh
过去企业在混合云里部署 Kafka,常见套路是 “一云一集群”,再用 MirrorMaker 2 做单向镜像。这种模式带来三个硬骨头:
- Topic 与 Schema 元数据碎片化,跨云无法复用;
- ACL、Quota、审计策略各玩各的,合规团队需要维护 N 份脚本;
- 容灾链路只能做到 “主 - 备”,RPO 普遍在 5–15 分钟,撑不起 AI 场景 30 秒级决策需求。
IBM 的打法是把 Confluent 的 KRaft 共识层与 Red Hat OpenShift 多集群控制台对接,形成 “Streaming Mesh” 统一控制面。核心变化有三点:
-
控制面统一:用 OpenShift Advanced Cluster Management 纳管所有 KRaft Controller,对外暴露单一 Kubernetes API 入口;Topic 生命周期、分区重平衡、滚动升级全部走 GitOps 流水线。
-
治理层下沉:IBM 会把 Atlas + Ranger 的治理模型封装成 watsonx.governance 的子模块,提供 Topic/Schema/Connector 一站式目录。Schema 血缘以 Kafka-native 的 header 注入方式实时同步,省掉以往通过 REST 拉取再解析的 2–3 秒延迟。
-
计费模型翻转:Confluent Cloud 原有的 “按流量 + 存储” 阶梯价将让位于 Cloud Pak for Integration 的 “按 vCPU 订阅” 模式。IBM 内部换算表显示,1 个 Confluent Compute Unit ≈ 0.8 IBM VPC(Virtual Processor Core),客户可以把许可证带到任意公有云或裸金属,实现真正的 BYO Cloud。
可落地的混合云参数清单
如果你今天就要在现有环境里验证 “IBM+Confluent” 架构,可以先按下面这张最小参数表落地:
| 组件 | 关键参数 | 推荐值 | 备注 |
|---|---|---|---|
| 多集群联邦 | KRaft metadata.log.segment.ms | 30000 | 30 秒刷盘一次,保证跨 Region RPO≤30 s |
| Schema 全局目录 | schema.registry.topic | _schemas_global | 所有集群共用,压缩策略设为 cleanup.policy=compact |
| ACL 联邦同步 | ranger.kafka.poll.interval.ms | 5000 | 每 5 秒拉取一次策略变更,低于手动刷新 30 倍 |
| 容灾链路 | mirror-maker.offset.lag.max | 5000 | 单分区 lag 超过 5k 即触发告警,对应约 10 秒数据 |
| 许可证转换 | 1 CFLT CU | 0.8 IBM VPC | 提前向 IBM EA 申请缓冲,避免交割日账单跳变 |
此外,网络层建议直接启用 OpenShift Service Mesh(Istio)+ mTLS 直通,端口 9094 的 inter-broker 流量统一走 TLS 1.3,cipher suite 限定 TLS_AES_256_GCM_SHA384,可在 FIPS 模式下通过 FedRAMP 审计。
迁移路径与回滚策略
对于已部署 Confluent Platform 7.x 的用户,最平滑的路线是 “先治理、后数据”:
- 在现有集群开启 KRaft 模式,留出 30% Broker CPU 冗余;
- 用 Confluent 提供的
kafka-metadata-quorum工具把 ZK 元数据一次性迁移到 KRaft,耗时约 2–3 分钟 / 百万分区; - 安装 IBM watsonx.governance 预览版,把 Atlas 指向旧集群的
_schemastopic,完成血缘导入; - 待 IBM 正式版许可证下发,再替换
server.properties中的confluent.license为 Cloud Pak 统一密钥,滚动重启即可。
回滚点设置在第三步:如果 Schema 血缘导入失败,可立即把 Atlas 切回旧 endpoint,业务侧无感知;分区重平衡期间把 broker.rack 设为 null,即可退化为单 AZ 部署,牺牲容灾换取稳定性。
风险与观望清单
-
反垄断:美欧监管已要求 IBM 在 2026 Q2 前提交 “云托管剥离” 方案,若最终出售 Confluent Cloud 欧洲区业务,法兰克福与伦敦可用区可能缩容 30%,需要提前把 EU 流量迁到自建集群。
-
社区贡献:Confluent 历来把最新 feature 先放在开源分支,再商业封装;IBM 的惯例是反向操作,优先满足企业版。建议关注 2026 H2 的 Kafka 4.0 PR,如果 IBM 把 KRaft 高阶调优参数锁进商业插件,就要评估是否回归 Apache 主干自维护。
-
许可证账单:Cloud Pak 的 vCPU 模式对高吞吐低 CPU 场景不利 —— 一条 200 MB/s 的链路在 Confluent Cloud 仅耗 6 CU,换算成 IBM VPC 却需要 10 核,成本可能上浮 25–30%。务必在 EA 里锁定 “裸金属折扣 + 超额冲抵” 条款,避免交割后预算爆表。
结语
IBM 拿下 Confluent 后,Kafka 生态正式进入 “大厂托管” 时代。对架构团队来说,好消息是多集群联邦、治理、计费等痛点有望一次解决;坏消息是自主可控的空间被进一步压缩。在 2026 H1 交割完成前,把 KRaft、Schema 血缘、ACL 审计三条主线梳理清楚,就能在 Streaming Mesh 时代抢到一个靠前的座次。
参考资料
[1] IBM Newsroom. IBM to Acquire Confluent to Create Smart Data Platform for Enterprise Generative AI. 2025-12-08.
[2] Conduktor. Federating Data Governance: Scaling Kafka Without Losing Control. 2025 版电子书.