用单 JSON 文件在对象存储上构建分布式队列：原地更新、ETag 乐观锁与并发控制实践

在分布式系统领域，用对象存储构建队列并非新鲜事。大多数方案遵循追加写入（append-only）日志的思路，将每一次入队操作追加到文件末尾，通过顺序写入获得高吞吐。然而，turbopuffer 在 2026 年初公开的方案选择了另一条路径：在一个可被原地更新的单 JSON 文件上实现分布式队列。这一设计在工程实现上带来了独特的挑战 —— 包括乐观锁冲突、组提交优化以及无状态代理的高可用保障。本文将从底层原语出发，逐层拆解这套系统的设计决策与可落地参数。

为什么是原地更新而非追加日志

理解这一设计的第一步，是明确它与主流 append-only 日志方案的根本差异。传统日志结构存储（Log-Structured Storage）依赖于顺序追加带来的高性能：写入操作只需将数据 append 到文件末尾，无需读取现有内容。S3 的 PutObject 或 GCS 的 upload 都可以在毫秒级完成追加，天然适合高吞吐场景。

但追加日志的弱点同样明显：读取完整的队列状态需要扫描整个日志文件，或者维护额外的索引结构。当队列中积累了大量已完成或已超时的任务时，垃圾回收（compaction）成为运维负担。更关键的是，追加日志天然不支持「修改」操作 —— 如果你需要更新某个任务的状态（比如标记为「处理中」或更新心跳时间），唯一的办法是追加新的状态记录，并在读取时取最新值。

turbopuffer 的方案恰恰利用了对象存储提供的原地更新能力。S3 在 2024 年底正式支持条件写入（conditional writes），允许客户端在写入时指定 ETag 校验 —— 只有当对象的当前 ETag 与客户端提供的值完全匹配时，写入才会成功。这提供了类似数据库 compare-and-set（CAS）的语义，使得「读取 - 修改 - 写回」这一经典模式在对象存储上变得可行。

对于一个小于 1 GiB 的队列文件（turbopuffer 实际使用场景的数据量远小于此），将整个 JSON 文件读入内存、修改后写回，相比维护一个不断增长的日志文件，在工程复杂度上反而更低。没有 compaction、没有 WAL 归档、也没有复杂的索引维护 —— 整个队列的状态就是文件的当前快照。

ETag 乐观锁的核心机制

在单 JSON 文件的原地更新模式下，每一次「入队」或「认领」操作都遵循相同的模式：客户端首先读取当前的 queue.json，获取其 ETag；然后在内存中修改 JSON 结构（追加新任务或标记已有任务为「处理中」）；最后使用条件写入将新内容写回，同时在请求中携带之前获取的 ETag。

如果在此期间，另一个客户端已经修改了文件，那么 ETag 会发生变化，条件写入失败。客户端必须重新读取最新的文件内容、重新应用自己的修改，并再次尝试写入。这个过程被称为「重试循环」，是乐观锁的典型表现。

从工程实现角度，有几个关键参数需要精心设计。首先是重试退避策略：连续的 ETag 冲突意味着高并发竞争，此时应当采用指数退避（exponential backoff）避免雪崩效应。推荐初始退避时间为 50 毫秒，最大退避时间不超过 2 秒，最大重试次数设置为 5 到 7 次。其次是超时阈值：S3 和 GCS 的写入延迟通常在 50 到 200 毫秒之间波动，P99 延迟可能达到 500 毫秒以上，因此客户端的读写超时应当设置为至少 5 秒，且建议启用请求级别的超时而非全局超时。

ETag 冲突的处理逻辑直接影响系统的尾部延迟。当多个 worker 同时竞争认领队列中的同一个任务时，失败的 worker 需要立即重新尝试认领下一个任务，而不是等待完整的重试周期。实现层面，可以采用「快速失败 - 立即重试」策略：在检测到 ETag 冲突后，立即重新读取文件并尝试修改，跳过常规的退避等待。只有当连续冲突次数超过阈值（比如 3 次）时，才开始应用退避策略。

组提交：对抗对象存储延迟

对象存储的核心劣势在于延迟而非吞吐量。一次 PutObject 操作的实际耗时（包括网络往返、服务器端处理和复制确认）通常在 100 到 200 毫秒之间，这与内存数据库微秒级的写入延迟有数量级的差距。如果每个任务入队都触发一次独立的文件写入，系统的最大吞吐将被限制在每秒 5 到 10 个任务 —— 这对于大多数实际业务场景是远远不够的。

组提交（group commit）是解决这一问题的经典技术，其核心思想非常朴素：当一次写入正在进行时，后续的入队请求不应该各自触发新的写入，而是被暂存到内存缓冲区中。等到当前写入完成后，缓冲区中积累的所有修改被合并成一次新的写入。这样，原本 N 次独立的写入被合并为 N/B 次（其中 B 是每批次的平均请求数），吞吐量随之提升。

在 turbopuffer 的设计中，组提交由一个独立的无状态代理（broker）统一执行。所有 push（生产者）和 worker（消费者）不再直接与对象存储交互，而是将请求发送给 broker。broker 内部维护一个内存缓冲区，当一次 CAS 写入完成后，它立即将缓冲区中的所有待处理操作合并成新的 JSON 并发起下一次写入。

这个设计的精妙之处在于，它将瓶颈从「写入延迟」转变为「网络带宽」。假设每次写入的 JSON Payload 大约 100 KB（包含队列元数据、任务状态和心跳信息），千兆网卡可以轻松支持每秒 10 GB 的传输量，对应每秒十万次操作 —— 这远远超出了单 broker 的实际需求。实际性能测试表明，一个单进程的 broker 可以轻松服务数百甚至数千个并发客户端，CPU 和内存占用都保持在极低水平。

工程实践中，组提交有几个值得关注的调优点。缓冲区大小的选择需要在延迟和吞吐之间权衡：缓冲区过小（比如只容纳 10 个请求）会导致频繁的小写入，无法充分利用合并收益；缓冲区过大则会增加请求的排队等待时间。建议的起始配置为缓冲区上限 1000 个操作，超时触发阈值设为 100 毫秒 —— 即当缓冲区中有任何请求且距离上次写入已超过 100 毫秒时，立即触发下一次写入。此外，对于实时性要求更高的场景，可以将超时阈值降低到 50 毫秒，但需要接受更高的写入频率带来的成本增加。

故障恢复与高可用设计

单代理架构存在明显的单点故障风险：如果承载 broker 的机器宕机，所有正在处理的任务将无法继续，新的入队请求也会丢失。为解决这一问题，turbopuffer 采用了「代理地址外置」的策略：broker 的 IP 地址和端口并不硬编码在客户端中，而是写入 queue.json 文件本身。

当一个 worker 或 pusher 需要与 broker 通信时，它首先读取 queue.json，从其中的 broker 字段获取当前活跃的 broker 地址。如果请求超时（比如超过 5 秒），客户端会重新读取 queue.json 获取最新的 broker 地址，并尝试连接 —— 这一机制天然支持了代理的故障转移。

更优雅的是多代理并存的处理方式。由于所有写入都通过 CAS 操作完成，即使两个代理同时运行，CAS 机制也会确保只有一个代理的写入会成功。失败的代理在收到 ETag 冲突错误后，会自动放弃代理身份，退回到普通客户端的角色。这种设计被称为「乐观 leader 选举」—— 不需要复杂的分布式选举协议，CAS 本身就是最可靠的协调者。

对于任务处理的高可用，核心机制是心跳检测。每个 worker 在认领任务后，需要定期向 broker 发送心跳。broker 将心跳时间戳写入 queue.json 中的对应任务。如果某个任务的最近一次心跳距离当前时间超过预设阈值（推荐值为 60 秒，可根据任务预期处理时间调整），则该任务被认为已「遗弃」，其他 worker 可以重新认领。

这个机制确保了 at-least-once 语义：每个任务至少会被处理一次，但可能在极端情况下被处理多次（如果 worker 在任务即将完成时崩溃，新 worker 会重新认领并重新执行）。对于需要精确一次（exactly-once）语义的任务，需要在应用层实现幂等性保护 —— 这在任何分布式队列系统中都是如此，并非本方案的独有局限。

监控与可观测性要点

运维这样一套系统，需要关注几个核心指标。对象存储层面的指标包括：写入成功率（应保持在 99.9% 以上）、写入延迟（P50 应低于 150 毫秒，P99 应低于 500 毫秒）、ETag 冲突频率（正常情况下低于总请求的 5%，如果持续高于此值说明并发竞争激烈，需要考虑增加 broker 数量或优化任务分区）。

Broker 层面的指标包括：缓冲区积压数量（如果持续接近缓冲区上限，说明写入吞吐不足，需要检查对象存储性能或网络链路）、请求队列延迟（从请求入队到被写入对象存储的端到端延迟，建议设置告警阈值为 1 秒）、活跃 worker 数量与任务吞吐量的比例（用于评估资源利用率）。

应用层面的指标则包括：任务平均处理时间、任务超时率（超过预设阈值未被处理的任务占比）、任务重复执行次数（通过在任务 payload 中嵌入唯一 ID 进行统计，用于评估 at-least-once 带来的重复开销）。

适用场景与局限性

这套方案并非万能药方，其适用性取决于几个前提条件。首先，队列数据的总大小必须足够小，以便能够将完整的 JSON 文件读入内存并通过网络传输。对于超过 1 GiB 的队列，每次读取和写入的成本会急剧上升，此时应当考虑分片或采用传统的追加日志方案。其次，对象存储的延迟特性决定了它不适合对延迟极度敏感的场景 —— 如果任务需要在毫秒级内得到处理，本地消息队列或 Redis 仍是更合适的选择。

但对于许多异步处理场景 —— 比如 turbopuffer 自己的索引任务通知系统 —— 这套方案提供了显著的工程优势：无需运维额外的消息中间件，利用对象存储本身的高可用和持久性保证，通过简单的文件语义实现了复杂的分布式队列功能。理解和掌握这套设计背后的核心原语 ——ETag 乐观锁、组提交、故障转移 —— 对于构建可靠的分布式系统具有普遍的参考价值。

资料来源：本文核心技术与参数参考自 turbopuffer 官方博客《How to build a distributed queue in a single JSON file on object storage》（2026 年 2 月），原文地址 https://turbopuffer.com/blog/object-storage-queue。