在 2025 年 11 月,全球多个关键基础设施相继发生宕机事件,这不仅暴露了现代 IT 系统的脆弱性,也为企业重新审视 “构建 vs 购买”(build vs buy)策略提供了宝贵教训。这些事件包括 Cloudflare 的重大中断、GitHub 的服务瘫痪以及 AWS 上周的故障,它们共同揭示了过度依赖复杂供应商抽象层的风险。如果企业无法理解底层机制,当故障发生时,往往陷入被动修复的困境。本文将从这些宕机事件出发,分析构建自定义基础设施与购买供应商服务的优劣,评估弹性、成本及集成挑战,并给出可落地的决策参数和清单,帮助企业优化基础设施策略。
近期宕机事件的启示
2025 年 11 月 18 日,Cloudflare 发生了一次大规模宕机,其 Bot Management 系统因一个格式错误的配置文件而导致整个网络出现 5xx 错误,影响了大量网站和服务。根据 Cloudflare 的官方报告,这次故障源于数据库权限变更导致配置文件大小翻倍,超过了代理软件的硬编码限制。这种连锁反应跨越多个抽象层,修复过程耗时数小时,许多用户在不知情的情况下遭受损失。同样,GitHub 在同周出现中断,AWS 在上周也报告了类似问题,这些事件并非孤立,而是反映了云服务提供商内部复杂性的普遍问题。
Uptime Institute 的 2025 年宕机分析报告指出,虽然整体宕机频率和严重程度相对于数字基础设施的快速增长而下降,但 IT 和网络问题已占重大宕机事件的 23%。电力问题仍是首要原因,但第三方软件故障和配置错误正日益增多。这表明,企业转向托管服务和云提供商虽降低了部分内部风险,却引入了新的外部依赖。报告强调,运营商面临电网限制、极端天气和网络提供商故障等不可控因素,这些风险在多变环境中放大。
这些事件的核心教训是:企业不应盲目追求便利而牺牲控制力。Todd H. Gardner 在其博客中指出,“如果你的核心业务功能依赖于某项能力,你应尽可能拥有它”,因为这能让你掌控命运并超越竞争对手。然而,许多技术领导者却反其道而行之,他们花数月构建分析工具,却将产品运行在不了解的云平台上。这种倒置导致了 “基础设施陷阱”:购买的不是简单服务器,而是全球冗余的 PaaS,导致故障时无人能洞悉全貌。
构建 vs 购买的弹性评估
弹性是 build vs buy 决策的核心考量。构建自定义基础设施能提供透明度和控制,例如直接管理硬件故障如 DIMM 损坏或驱动器丢失,这些问题易于诊断和替换。相比之下,供应商服务的抽象层往往涉及数百万行代码,当 Cloudflare 的配置文件问题波及无关服务时,企业只能等待官方响应,无法主动干预。这不仅延长了恢复时间,还放大业务损失。
成本影响同样显著。Uptime 报告显示,宕机成本持续上升,超过一半受访者在过去三年内经历重大中断,平均费用超 10 万美元,近三分之一达百万美元级别。构建虽初始投资高(包括开发和维护),但长期 TCO(总拥有成本)可通过避免供应商费用和锁入而降低。购买则初期低廉,但隐含的间接成本如集成失败或供应商涨价不可忽视。例如,AWS 的弹性计算虽便捷,却在高峰期导致意外账单飙升。
集成挑战是另一痛点。自定义构建允许无缝融入现有系统,避免 API 不兼容或数据迁移难题。但购买多供应商服务时,集成复杂度指数级增加,如将 Cloudflare 与 GitHub 结合,可能引入配置冲突。近期西班牙和葡萄牙的电力中断事件进一步凸显此问题:数百万用户受影响,交通和通信瘫痪,医院虽有备用发电机但仍面临延长中断的挑战。这提醒企业,集成需考虑多层依赖,确保备用方案覆盖所有场景。
可落地的决策参数与清单
基于上述分析,以下是指导 build vs buy 的实用参数和清单。企业应优先构建交付独特价值的组件,如核心产品逻辑;购买非核心的标准化服务,如错误监控或性能追踪,但选择抽象层薄、API 完善的解决方案。
决策参数:
- 核心唯一性:该组件是否直接支撑业务差异化?如果是,构建以掌控创新;否则,购买以节省资源。
- TCO 计算:评估全生命周期成本,包括开发 / 维护 vs 订阅 / 集成。目标:价值 / 成本比 > 4(如区域间传输链接)。
- 弹性阈值:供应商 SLA 恢复时间 < 1 小时?自定义故障诊断 < 30 分钟?优先低抽象选项。
- 集成复杂度:API 兼容性 > 90%?变更管理风险 < 10%?测试多供应商场景。
- 风险缓解:外部依赖比例 < 50%?有回滚策略和监控点?
行动清单:
- 步骤 1:风险评估。列出所有依赖,量化宕机影响(e.g., 5% 高峰时段捕获 45% 价值)。
- 步骤 2:原型测试。构建小规模自定义模块 vs 购买 POC,比较恢复时间和成本。
- 步骤 3:供应商审查。选择支持编程 API 的产品,避免黑箱;如 TrackJS 用于错误监控。
- 步骤 4:监控实施。部署端到端可见性工具,设置阈值警报(e.g., 配置变更 > 20% 触发审查)。
- 步骤 5:迭代优化。每年复盘宕机事件,调整策略;如转向混合模式,构建核心 + 购买外围。
通过这些参数,企业能在近期宕机浪潮中化险为夷。例如,Pittsburgh 国际机场的微电网扩展(太阳能 + 天然气)展示了混合策略的弹性:每年节省 100 万美元碳排放,减少中断风险。这类落地实践证明, thoughtful build vs buy 能提升整体韧性。
总之,2025 年的宕机事件并非灾难,而是战略转折点。企业应从 Jurassic Park 的教训中吸取经验:构建独特部分,购买运行必需,但始终确保理解与修复能力。唯有如此,方能在复杂环境中稳健前行。
资料来源:
- Todd H. Gardner, "Build vs Buy: What This Week's Outages Should Teach You", https://www.toddhgardner.com/blog/build-vs-buy-outages (2025-11-19)。
- Uptime Institute, "2025 Annual Outage Analysis Report"。