Hotdry.
distributed-systems

Garage:在不可靠网络中构建可靠的S3兼容对象存储

探讨Garage如何通过三区域复制、最终一致性模型和极简系统要求,实现在数据中心外不可靠网络环境中的高可用对象存储。

在传统云存储架构中,我们习惯于假设数据中心内部网络是可靠的、低延迟的,存储节点之间的通信几乎总是成功的。然而,当存储系统需要部署在家庭网络、小型办公室或跨地域的分布式环境中时,网络不可靠性成为必须面对的现实挑战。Garage 正是为这种场景而生的 S3 兼容对象存储系统,它重新定义了 "可靠" 的含义 —— 不是在理想环境中保持稳定,而是在最恶劣的网络条件下依然能够提供可用的存储服务。

为不可靠网络而生的设计哲学

Garage 的开发团队 Deuxfleurs 是一个法国非营利组织,他们的核心使命是推广自托管和小规模托管。与大型科技公司的集中式云存储不同,Garage 的设计目标是在 "没有专用骨干网" 的环境中运行。正如其官网所述:"我们既没有专用骨干网,您也没有,所以我们开发了能够在互联网上跨多个数据中心运行的软件。"

这种设计哲学体现在几个关键参数上:

  • 网络容忍度:Garage 设计在 200 毫秒或更低的延迟、50Mbps 或更高的带宽条件下运行
  • 硬件异构性:支持使用任何可用的二手机器构建集群
  • 极简系统要求:仅需 1GB RAM、16GB 磁盘空间,支持过去 10 年的 x86_64 CPU 以及 ARMv7/ARMv8 架构

这些参数并非随意设定,而是基于真实世界自托管环境的观察。家庭宽带网络通常有更高的延迟波动,小型办公室的网络基础设施可能不如数据中心完善,而跨地域部署必然面临网络分区风险。Garage 通过降低对网络质量的依赖,提高了在不可靠环境中的生存能力。

三区域复制:数据冗余的地理分布策略

Garage 的核心数据保护机制是三区域复制。每个数据块(chunk)会在三个不同的区域(zone)中复制,这里的 "区域" 可以理解为地理位置或网络隔离单元。这种设计借鉴了 Amazon Dynamo 论文中的思想,但针对不可靠网络环境进行了优化。

复制策略的技术实现

在传统数据中心内部,三副本复制通常假设副本之间的网络连接是稳定且低延迟的。但在 Garage 的场景中,副本可能分布在:

  1. 家庭网络中的不同物理位置
  2. 不同城市的小型数据中心
  3. 甚至不同国家的托管设施

Garage 的复制算法需要处理以下挑战:

  • 网络延迟不对称:不同方向的数据传输可能具有不同的延迟特性
  • 连接间歇性中断:家庭网络或小型 ISP 可能有不稳定的连接
  • 带宽限制:上传带宽通常远小于下载带宽

为了解决这些问题,Garage 采用了异步复制策略。当客户端写入数据时,系统会立即确认写入操作,然后在后台异步地将数据复制到其他区域。这种设计确保了写入操作的响应时间不会受到跨地域网络延迟的严重影响。

区域划分与故障域隔离

Garage 允许管理员根据实际网络拓扑定义区域。一个区域可以包含多个服务器,但这些服务器应该共享相同的故障域特征。例如:

  • 同一物理位置的服务器可以划分为一个区域
  • 使用相同网络提供商的服务器可以划分为一个区域
  • 具有相似网络可靠性的服务器可以划分为一个区域

通过合理的区域划分,系统可以在网络分区发生时,仍然在部分区域中保持数据的可访问性。当某个区域完全不可达时,其他两个区域中的副本仍然可以提供服务。

不可靠网络中的一致性保证

在分布式系统中,CAP 定理告诉我们:在网络分区(Partition)发生时,我们必须在一致性(Consistency)和可用性(Availability)之间做出选择。Garage 选择了最终一致性模型,这是在不可靠网络环境中实现高可用性的合理权衡。

基于 CRDT 的冲突解决

Garage 利用了冲突无关复制数据类型(Conflict-Free Replicated Data Types, CRDTs)的研究成果。CRDTs 是一种特殊的数据结构,它们的设计保证了无论操作以何种顺序应用,最终所有副本都会收敛到相同的状态。

对于对象存储场景,Garage 主要处理两种类型的操作:

  1. 对象上传 / 更新:当同一个对象在不同区域被并发修改时,系统需要解决冲突
  2. 元数据操作:如桶(bucket)的创建、删除、权限修改等

Garage 使用向量时钟(vector clocks)来跟踪操作的因果关系。当检测到冲突时,系统可以采用多种策略:

  • 最后写入获胜(Last Write Wins):基于时间戳选择最新的版本
  • 应用特定合并:对于某些数据类型,可以自动合并变更
  • 保留所有版本:将冲突版本都保存,由应用程序决定如何处理

读写仲裁与可用性保证

为了在部分节点不可用时仍然提供服务,Garage 实现了可配置的读写仲裁(quorum)机制。在三副本配置中,典型的设置是:

  • 写入仲裁:需要至少 2 个副本确认写入成功
  • 读取仲裁:需要从至少 2 个副本读取并比较结果

这种配置允许系统在一个副本不可用时仍然保持读写可用性。当网络分区导致某些副本无法访问时,只要多数副本(2/3)仍然可达,系统就可以继续提供服务。

部署参数与操作清单

最低部署配置

对于想要在不可靠网络环境中部署 Garage 的团队,以下是最低可行的配置参数:

硬件要求:

  • CPU:任何 x86_64(过去 10 年)或 ARMv7/ARMv8 处理器
  • 内存:1GB RAM(建议 2GB 以获得更好性能)
  • 存储:至少 16GB 可用磁盘空间
  • 网络:稳定连接,延迟≤200ms,带宽≥50Mbps

集群规模建议:

  • 最小集群:3 个节点,每个节点在不同区域
  • 推荐集群:5-7 个节点,分布在 3 个以上区域
  • 每个区域至少 2 个节点以提高区域内的可用性

网络配置优化

在不可靠网络环境中,以下网络配置可以显著提高系统稳定性:

  1. 连接超时设置

    # Garage配置文件示例
    rpc_timeout: "30s"
    rpc_retry_delay: "2s"
    rpc_max_retries: 5
    
  2. 心跳检测配置

    • 心跳间隔:10-30 秒(根据网络稳定性调整)
    • 心跳超时:3-5 倍心跳间隔
    • 故障检测窗口:连续 3 次心跳失败标记节点为不可用
  3. 数据同步参数

    • 批量传输大小:根据网络带宽调整,通常 1-4MB
    • 并发传输数:2-4 个并发连接
    • 重试策略:指数退避,最大重试次数 5-10 次

监控与告警指标

在不可靠网络环境中,监控变得尤为重要。以下是要监控的关键指标:

网络相关指标:

  • 节点间延迟(百分位数:P50, P95, P99)
  • 数据包丢失率
  • 带宽利用率
  • 连接建立失败率

存储系统指标:

  • 复制延迟:数据写入到所有副本同步完成的时间
  • 副本健康状态:每个数据块的副本数量
  • 修复队列长度:等待修复的数据块数量
  • 仲裁可用性:当前可用的读写仲裁比例

业务层面指标:

  • 请求成功率(按操作类型:GET, PUT, DELETE)
  • 请求延迟分布
  • 错误类型分布(超时、网络错误、存储错误)

故障恢复操作清单

当网络问题导致系统异常时,可以按照以下清单进行恢复:

阶段 1:诊断与隔离

  1. 检查所有节点的网络连通性(使用pingtraceroute
  2. 确认 DNS 解析正常(如果使用域名)
  3. 检查防火墙规则和网络 ACL
  4. 识别受影响的区域和节点

阶段 2:临时缓解

  1. 调整 Garage 的 RPC 超时参数(临时增加)
  2. 降低复制并发度以减少网络压力
  3. 对于关键业务数据,临时启用本地缓存
  4. 如果可能,将流量重定向到网络状况较好的区域

阶段 3:数据一致性检查

  1. 使用 Garage CLI 检查数据完整性:garage repair --all
  2. 验证每个数据块的副本数量:garage stats
  3. 检查并修复元数据一致性
  4. 验证仲裁可用性状态

阶段 4:根本原因解决

  1. 与网络提供商协调解决连接问题
  2. 优化网络路由(如果可能)
  3. 考虑增加网络冗余(多 ISP 接入)
  4. 调整区域划分策略,减少跨问题网络的依赖

阶段 5:预防措施

  1. 更新监控告警阈值
  2. 完善故障演练流程
  3. 文档化此次故障的处理经验
  4. 考虑架构改进(如增加缓存层、调整复制策略)

与传统云存储的对比

Garage 的设计选择使其在不可靠网络环境中具有独特优势,但也带来了一些与传统云存储的差异:

优势:

  1. 网络容忍度更高:能够在高延迟、不稳定网络中运行
  2. 硬件要求更低:可以在老旧或低配硬件上部署
  3. 部署灵活性:支持异构环境和混合部署
  4. 成本效益:利用现有硬件,减少专用基础设施投入

限制:

  1. 最终一致性:不适合需要强一致性的场景
  2. 性能上限:受限于最慢的网络链路
  3. 管理复杂度:需要更多的网络调优和监控
  4. 功能完整性:可能不支持某些高级 S3 功能

实际应用场景

Garage 特别适合以下场景:

边缘计算存储:在工厂、零售店、远程办公室等边缘位置提供本地存储,同时保持与中心的数据同步。

分布式团队协作:团队成员分布在不同地理位置,每个地点都有本地存储节点,提供低延迟访问。

灾难恢复准备:在主要数据中心之外部署存储副本,即使主要站点完全不可用,数据仍然可访问。

成本敏感型项目:利用现有硬件资源,避免昂贵的云存储费用或专用存储设备投资。

隐私敏感应用:数据完全控制在自有基础设施中,不依赖第三方云服务提供商。

技术演进方向

随着边缘计算和分布式应用的普及,像 Garage 这样的系统将继续演进。未来的发展方向可能包括:

  1. 智能数据放置:基于访问模式、网络状况和存储成本,动态调整数据分布
  2. 分层存储架构:结合本地 SSD、HDD 和远程对象存储,优化性能与成本的平衡
  3. 预测性修复:基于网络质量预测,提前触发数据修复,减少数据不可用时间
  4. 跨云兼容性:不仅支持 S3 协议,还能与不同云提供商的对象存储无缝交互

结语

Garage 代表了分布式存储系统设计的一个重要方向:不再假设完美的基础设施,而是直面现实世界中的网络不可靠性。通过三区域复制、最终一致性模型和极简的系统要求,它证明了即使在最挑战的网络环境中,也可以构建可靠的存储系统。

对于正在考虑在边缘环境、分布式团队或多地点部署中实施对象存储的团队,Garage 提供了一个经过实战检验的解决方案。它的价值不仅在于技术实现,更在于展示了一种设计哲学:真正的可靠性不是避免故障,而是在故障发生时依然能够提供服务。

正如 Deuxfleurs 团队所言,他们构建 Garage 是因为 "现有软件通常不适合这种特殊的部署场景"。在云计算日益集中化的今天,Garage 提醒我们:去中心化、抗脆弱的设计仍然有其不可替代的价值。


资料来源:

  1. Garage 官方文档:https://garagehq.deuxfleurs.fr/
  2. "Is MinIO Dead? Why It's Time to Migrate to Garage Object Storage" - Medium 文章,2025 年 12 月
查看归档