B树节点分裂与合并：扇出与高度权衡优化 RocksDB/PostgreSQL 磁盘 I/O

在数据库索引中，B-Tree 通过节点分裂（splitting）和合并（merging）维持平衡，同时利用高扇出（fanout）最小化树高，从而优化磁盘 I/O。这是 RocksDB（LSM 变体）和 PostgreSQL 等引擎的核心机制。本文聚焦这些操作的工程实现，提供可落地参数、阈值和监控清单，帮助优化 OLTP 负载下的查询延迟。

B-Tree 节点分裂：插入时的自平衡

B-Tree 节点设计为填充一个磁盘页（典型 4-16KB），每个节点存多键（order-1 个）和子指针（order 个）。插入时，若叶节点键数超阈值（max_keys = order-1，通常 100-1000），触发分裂。

分裂算法步骤：

找到满节点中点（mid = (order-1)//2）。
创建右兄弟节点，将 mid+1 后键移入。
中键上推至父节点，更新父子指针。
若父满，递归分裂，直至根（罕见，增高树）。

伪代码示例：

def split_child(parent, child_idx):
    full_child = parent.children[child_idx]
    sibling = new Node(is_leaf=full_child.is_leaf)
    mid = (order - 1) // 2
    sibling.keys = full_child.keys[mid+1:]
    full_child.keys = full_child.keys[:mid]
    if not full_child.is_leaf:
        sibling.children = full_child.children[mid+1:]
        full_child.children = full_child.children[:mid+1]
    promoted = full_child.keys.pop(mid)  # 上推
    parent.keys.insert(child_idx, promoted)
    parent.children.insert(child_idx+1, sibling)

此机制确保节点占用率 ≥50%，避免碎片。PostgreSQL B-Tree 页大小 8KB，键长 8 字节时 fanout ≈120，单分裂 I/O 为 2-3 次写（节点 + 父）。

落地参数：

order: 128-512（PostgreSQL 默认动态，根据键大小）。小键高 fanout（如 int64: 200+），大键低（varchar: 50）。
分裂阈值: 100% 满（len (keys) >= order-1）。
监控点：分裂率 >5%/ 小时 → 调大 page_size 或 batch 插入。Prometheus 指标：pg_stat_user_indexes.idx_scan, idx_tup_fetch。

RocksDB 虽主用 LSM-Tree（避免随机写），其 memtable（skiplist）转 SSTable 时模拟 B-Tree-like 分层 compaction，类似分裂控制层高。

节点合并：删除时的空间回收

删除键后，若节点键数 <min_keys（ceil ((order-1)/2)），借邻居或合并。

合并算法：

若右兄弟 ≥min_keys，从父下拉分隔键 + 右兄弟键移左。
否则，合并左右：左吸右全键 + 父分隔键下拉，删右指针。
父变稀疏，递归。

此保持树高稳定，减少范围扫描 I/O。PostgreSQL 中，删除后不立即合并，VACUUM 触发。

风险与阈值：

频繁合并增写放大（2-3x），高删负载下 height 暂升 1 层。
阈值：节点占用 <69%（PostgreSQL 默认），低于 50% 强制 VACUUM。

清单：

预热缓存：shared_buffers = 25% RAM，target 缓存根 - 内节点（树高 * 页大小 ≈1-5% 数据）。
回滚：若分裂风暴，暂停写 + ANALYZE 重建索引。

扇出 vs 树高：磁盘 I/O 核心 trade-off

树高 h = ceil (log_fanout (N))，查询 I/O = h 次 seek（HDD 10ms / 次，SSD 0.1ms）。高 fanout 压低 h，但增单节点二分搜 log2 (fanout)。

量化 trade-off：

数据规模	fanout=100	h(I/O)	fanout=1000	h(I/O)
1M 键	3	3	2	2
1B 键	5	5	3	3

fanout=1000 优于 HDD（50ms →30ms），但键大时指针开销升（指针 8B + 键变长）。PostgreSQL 权衡：默认 fillfactor=90%，动态 fanout。

最优配置：

PostgreSQL：maintenance_work_mem=1GB（建索引内存），autovacuum_vacuum_scale_factor=0.1（防碎片）。页 8KB，int 键 fanout~150，1B 行 h=4。
RocksDB：虽 LSM，block_size=16KB（类似 B-Tree 页），target_file_size_multiplier = 渐增防高扇出 compaction 风暴。max_open_files=10000 控 I/O 并发。
通用阈值：h>5 → 增 fanout / 压缩键；I/O>10ms P99 → NVMe SSD 或缓存 80% 内节点。

证据显示，对于 1 亿记录，fanout 100 时 h=4，HDD 查询 40ms。[1]

监控与优化实践

关键指标：

树高：pgstattuple ('index') → bt_height >5 告警。
分裂 / 合并率：rocksdb.num.sstables（RocksDB），pg_stat_user_indexes.chg。
I/O amp：write_amp <3，read_amp<2。
范围查询：idx_scan vs seq_scan >90%。

清单：

参数调优：PG: wal_buffers=-1（1/32 shared），RocksDB: write_buffer_size=64MB（批写减分裂）。
负载测试：sysbench 80% 读 / 20% 写，测 P99<5ms。
回滚策略：索引重建前备份，downtime<1min；RocksDB checkpoint 回滚。
高级：prefix_compression 增有效 fanout 20%。

在高并发， latch-free B-Tree（如 SQL Server）减锁，但 PG 用 MVCC。最终，B-Tree split/merge + fanout 调优，使 PG/RocksDB 1B 数据查询 I/O 恒 <1ms（SSD）。

资料来源： [1] Mehmet Goekce, "B-Trees: Why Every Database Uses Them", https://mehmetgoekce.substack.com/p/b-trees-why-every-database-uses-them （节点分裂示例与 fanout 计算）。

[2] PostgreSQL Docs: B-Tree Indexes, https://www.postgresql.org/docs/current/btree.html。

（正文 1250+ 字）