从存储引擎移除fsync：数据持久化与性能优化的工程权衡

在数据库与存储系统的工程实践中，fsync 是一个既基础又关键的操作系统调用。它负责将内核缓冲区中的数据强制刷新到持久化存储设备，确保即使在系统崩溃或断电情况下，已写入的数据也不会丢失。然而，这个看似简单的同步操作，往往成为存储引擎性能优化的最大瓶颈。FractalBits 在构建其高性能 S3 兼容对象存储的过程中，通过将元数据引擎从传统的 LSM 树迁移到自研的 Fractal ART（自适应基数树），在持久化保证与性能极限之间探索出了一条值得借鉴的工程路径。本文将深入分析这一过程中的技术决策，为存储系统的 durability 优化提供可落地的参数参考。

fsync 在存储引擎中的核心角色

理解 fsync 的优化空间，首先需要明确它在存储引擎中的具体功能定位。在典型的日志结构合并树（LSM Tree）存储引擎（如 RocksDB）中，fsync 主要服务于两个关键机制：写前日志（WAL）的持久化保证和 SSTable 文件的落盘确认。当事务提交时，WAL 必须先完成 fsync 操作，确保事务日志已经安全写入磁盘，才能向客户端返回成功响应。这一设计使得存储引擎能够在崩溃后通过重放 WAL 来恢复未落盘的数据，从而实现 ACID 中的 D（Durability）特性。

然而，fsync 的性能代价极为高昂。根据行业基准测试，在普通 NVMe SSD 上，单次 fsync 操作的延迟通常在 0.5 毫秒到 2 毫秒之间，而在高并发写入场景下，fsync 可能成为系统吞吐量的硬性上限。FractalBits 在其技术博客中指出，传统 LSM 引擎在处理具有层级结构的元数据（如对象存储路径 /bucket/images/2024/photo.jpg）时，存在冗余前缀比较和目录重命名成本高昂的问题。这些问题的根源在于 LSM 树将路径视为扁平字节序列进行字典序排序，无法利用路径的层级语义进行优化。

Fractal ART 架构的持久化设计

FractalBits 的解决方案是构建一个自研的 Fractal ART（自适应基数树）元数据引擎。与传统 LSM 树不同，Fractal ART 是一种基于磁盘的基数树，它将路径按照自然边界拆分为独立的 blob 进行存储。这种设计带来了几个关键的持久化特性变化。首先是 blob 级别的原子性保证：在 Fractal ART 中，对某个 blob 的修改需要整体重写该 blob，这与 LSM 树中追加式写入 SSTable 的做法形成鲜明对比。其次是目录重命名的原子化实现 —— 重命名一个目录只需更新父 blob 中指向子 blob 的引用指针，无需重写整个子树的所有键值对。

这种架构转变对 fsync 的使用模式产生了深远影响。在传统 RocksDB 中，每个写操作都需要等待 WAL 的 fsync 完成才能确认提交。而在 Fractal ART 中，由于采用了 blob 分区策略，写入操作的持久化可以按 blob 边界进行批量处理。FractalBits 在博客中提到，他们在元数据引擎中使用了写前日志结合生理日志（physiological logging）的策略来平衡写入放 flation 和恢复速度。这种设计允许在一个 blob 内部进行增量更新，而将完整的 blob 重写操作延迟到累计变更达到阈值后再执行，从而减少了 fsync 调用的频率。

工程落地的关键参数与阈值

对于希望类似优化存储引擎的工程团队，以下参数和阈值可作为初始配置的参考基准。在 fsync 频率控制方面，建议将批量提交的窗口设置为 1 到 10 毫秒，具体数值取决于业务对数据丢失窗口的容忍度。若系统可容忍最多 1 秒的数据丢失风险（如某些日志聚合场景），可参考 Redis 的 AOF 策略，将 fsync 频率设置为 everysec；若需保证更严格的持久化，则应设置为 always 或在每个事务提交时执行 fsync。对于 FractalBits 采用的 blob 级批量策略，建议将单个 blob 的大小控制在 1MB 到 16MB 之间，过大的 blob 会增加恢复时间，而过小的 blob 则会引入过多的随机 I/O 开销。

在 WAL 配置层面，推荐采用双缓冲机制：活跃 WAL 缓冲区和备用 WAL 缓冲区交替使用，当活跃缓冲区写满后执行一次 fsync 并切换到备用缓冲区。这种设计可以将 fsync 的吞吐量开销降低 50% 以上，前提是应用程序能够容忍秒级的数据丢失窗口。对于需要更强持久化保证的场景，可以考虑引入电池后备写入缓存（BBU）的 RAID 控制器或启用 NVMe 设备的持久化内存区域（PMR），这些硬件方案能够在不增加 fsync 延迟的情况下提供数据持久化保证。

风险评估与监控指标

优化 fsync 策略必须伴随完善的风险评估体系。最直接的风险是数据丢失：在降低 fsync 频率后，突发的系统崩溃可能导致最近一个写入窗口内的数据无法恢复。对于对象存储等场景，可以接受的风险阈值通常为 RPO（恢复点目标）小于等于 1 秒，这意味着任何用户数据在故障后最多丢失 1 秒的增量。第二个风险是数据一致性：不当的 blob 写入顺序可能导致元数据树的结构损坏，这在理论上需要引入额外的校验机制（如 Merkle 树或校验和）来检测。FractalBits 在其技术文档中承认，自定义存储引擎的 crash recovery 复杂度显著高于开箱即用的 RocksDB，这需要投入额外的测试资源进行正确性验证。

监控指标的选取同样关键。核心指标包括：fsync 平均延迟（建议告警阈值设为 2ms，P99 延迟不超过 10ms）、每秒 fsync 次数与写入 TPS 的比率（理想情况下批量策略应使该比率低于 0.1）、以及崩溃恢复时间（建议通过定期的故障注入测试来验证，确保恢复时间在业务可接受的 RTO 范围内）。此外，还应监控磁盘队列深度和写入放大率，这两个指标能够反映 fsync 优化是否达到了预期的 I/O 效率提升。

实践建议与适用场景判断

并非所有存储系统都适合移除或延迟 fsync 操作。判断是否需要进行此类优化的关键依据包括：业务对数据持久化的容忍度、写入工作负载的特征（顺序写入还是随机写入为主）、以及底层存储设备的性能特性。对于金融交易系统等强一致性要求极高的场景，强烈建议保持每次提交的 fsync 操作，甚至考虑引入多副本同步机制来增强 durability。而对于对象存储的元数据索引、日志收集系统的尾部写入等场景，适当的 fsync 批量策略可以显著提升吞吐量，FractalBits 公布的性能数据 —— 单节点可达 100 万 4K 读 IOPS、p99 延迟约 5 毫秒 —— 正是这种优化思路的成功验证。

FractalBits 的技术实践表明，在追求极致性能的同时实现数据持久化并非零和游戏。通过创新的数据结构设计（Fractal ART）与精细的持久化策略调整，可以在保证系统可靠性的前提下，将存储引擎的 I/O 效率提升一到两个数量级。这一思路值得所有面临类似性能困境的存储系统工程师深入参考。

参考资料

FractalBits 官方博客：Metadata Engine for Our Object Storage — from LSM Tree to Fractal ART（https://fractalbits.com/blog/metadata-engine-for-our-object-storage-from-lsm-tree-to-fractal-art/）
Percona 技术博客：Fsync Performance on Storage Devices（https://www.percona.com/blog/fsync-performance-storage-devices/）

systems

内容声明：本文无广告投放、无付费植入。

如有事实性问题，欢迎发送勘误至 i@hotdrydog.com。