rsync块级滚动哈希算法实现：Adler-32与增量同步工程参数

在分布式系统文件同步场景中，rsync 的块级滚动哈希算法以其高效的增量传输能力著称。与传统的 LCS（最长公共子序列）文本差异算法不同，rsync 采用基于块的二进制差异检测，特别适合大文件同步和二进制数据压缩。

双重校验和架构：弱筛选与强确认

rsync 算法的核心在于双重校验和机制。目标端将文件分割为固定大小的块（默认 512-700 字节），对每个块计算：

弱校验和（Adler-32）：32 位滚动哈希，计算速度快，用于快速筛选可能匹配的块
强校验和（MD5）：128 位加密哈希，碰撞概率极低（2^-160），用于最终确认块一致性

这种设计平衡了性能与准确性：Adler-32 快速排除不匹配块，MD5 确保匹配的可靠性。

Adler-32 滚动哈希算法实现

Adler-32 算法由 Mark Adler 发明，专为 rsync 的滚动特性优化。其数学定义为：

A = 1 + D₁ + D₂ + ... + Dₙ (mod 65521)
B = (1+D₁) + (1+D₁+D₂) + ... + (1+D₁+...+Dₙ) (mod 65521)
Adler-32 = B × 65536 + A

其中 65521 是 2^16 后的最小素数，65536=2^16。算法的滚动特性使其能够高效更新：

def rolling_adler32(prev_hash, removed_byte, added_byte, block_size):
    """滚动更新Adler-32哈希值"""
    a = prev_hash & 0xFFFF
    b = (prev_hash >> 16) & 0xFFFF
    
    # 移除旧字节
    a = (a - removed_byte) % 65521
    b = (b - block_size * removed_byte - a) % 65521
    
    # 添加新字节
    a = (a + added_byte) % 65521
    b = (b + a) % 65521
    
    return (b << 16) | a

这种设计使得从位置 [i, i+block_size-1] 移动到 [i+1, i+block_size] 只需常数时间操作，而非重新计算整个块的哈希。

哈希表优化与查找性能

rsync 使用 16 位哈希表（大小 65536）来存储目标文件的校验和信息：

哈希键 = Adler-32值 & 0xFFFF  # 取低16位

每个哈希桶可能包含多个块的信息（哈希碰撞），形成链表结构。这种设计实现 O (1) 时间复杂度的查找性能，即使处理 GB 级文件也能保持高效。

块大小选择的工程化参数

块大小是 rsync 性能的关键参数，需要在传输效率和计算开销间权衡：

推荐参数范围：500-1000 字节

小于 500 字节：块数量过多，导致：
- 哈希碰撞概率增加
- 校验和计算和比较开销增大
- 网络传输的元数据开销比例上升
大于 1000 字节：增量传输优势减弱
- 小修改导致整个块需要重传
- 失去 rsync 的增量传输价值

默认自适应策略

现代 rsync 实现通常根据文件大小自动选择块大小：

小文件（<1MB）：使用较小块（~512 字节）
中等文件（1MB-100MB）：700-800 字节
大文件（>100MB）：900-1000 字节

算法执行流程

1. 目标端预处理

for each block in target_file:
    weak_hash = adler32(block)
    strong_hash = md5(block)
    store(weak_hash, strong_hash, block_index)

2. 源端差异检测

初始化滑动窗口 [0, block_size-1]
while not end_of_file:
    current_hash = adler32(current_window)
    hash_key = current_hash & 0xFFFF
    
    if hash_key in hash_table:
        for each candidate in hash_table[hash_key]:
            if candidate.weak_hash == current_hash:
                if md5(current_window) == candidate.strong_hash:
                    # 找到匹配块
                    record_match(candidate.block_index)
                    skip(block_size)  # 跳过整个块
                    break
        
    # 未找到匹配，滑动1字节
    current_hash = rolling_adler32(current_hash, 
                                 first_byte, 
                                 next_byte, 
                                 block_size)
    slide_window(1)

3. 传输优化

只传输未能匹配的原始数据和匹配块的引用信息，大幅减少网络传输量。

性能监控与调优要点

关键指标

哈希碰撞率：Adler-32 碰撞应控制在合理范围内
块匹配率：反映文件相似度，高匹配率说明增量传输效果显著
计算吞吐量：Adler-32 计算应达到 GB/s 级别

调优建议

高碰撞场景：增大块大小或考虑使用 CRC32 替代 Adler-32
低匹配率：检查文件类型，压缩文件可能不适合 rsync
计算瓶颈：使用 SIMD 指令优化 Adler-32 计算

限制与应对策略

Adler-32 的安全性限制

Adler-32 不是加密安全哈希，可能被故意构造碰撞。在安全敏感场景应：

增加 MD5 校验强度
或使用 SHA-256 等更强哈希

内存使用

哈希表需要存储每个块的元信息，对于极大文件：

采用分块处理策略
使用磁盘缓存机制

网络延迟影响

rsync 需要往返通信，在高延迟网络中：

使用更大的块减少往返次数
考虑本地预处理策略

实际应用建议

二进制文件同步：优先选择 rsync 块级算法，避免文本差异算法的局限性
版本控制系统：可作为二进制资产增量更新的基础
备份系统：结合压缩技术实现高效增量备份
移动网络优化：显著减少数据传输量，节省带宽

rsync 的块级滚动哈希算法通过巧妙的双重校验和设计和高效的滚动计算，在文件同步领域保持了 20 多年的领先地位。正确理解其参数调优和限制条件，能够在各种场景下实现最优的增量同步性能。