650GB Delta Lake 数据集基准测试：Polars、DuckDB、Daft 与 Spark 的单节点性能对比

在现代数据湖屋（Lakehouse）架构中，分布式计算集群如 Spark 长期主导大规模数据处理，但随着单节点工具如 Polars、DuckDB 和 Daft 的成熟，集群疲劳（cluster fatigue）问题日益凸显。这些工具能够在有限资源下高效处理大于内存的数据集，显著降低成本和复杂性。本文基于 650GB Delta Lake 数据集在 S3 上的基准测试，探讨这些工具在查询延迟、内存效率和并行扩展方面的表现，并提供可落地的工程参数和优化清单，帮助构建高效的大数据分析管道。

首先，理解测试场景至关重要。数据集模拟社交媒体帖子，总大小达 650GB，存储在 S3 的 Delta Lake 表中，按年月分区。这反映了典型的生产环境：数据量巨大，但无需实时处理。测试环境为 AWS EC2 实例，配备 32GB RAM 和 16 个 CPU 核心，模拟商品级硬件。核心查询为聚合操作：读取整个数据集，按用户 ID 分组计数并排序。这种查询会迫使工具加载并处理全量数据，考验其流式处理能力和内存管理。

测试结果显示，单节点工具在性能上超越预期。Polars 使用 Lazy API（scan 和 sink）实现了 12 分钟的执行时间，内存峰值控制在 20GB 以内，未发生 OOM（Out of Memory）。DuckDB 以 16 分钟完成，受益于其内置的流式读取机制，内存使用率约 25GB。Daft 虽需 50 分钟，但仍成功处理，证明其 Rust 基础的并行能力。相比之下，单节点 Spark 配置默认参数下耗时超过 1 小时，shuffle 分区过多导致瓶颈。“DuckDB、Polars 和 Daft 在单节点上处理 650GB 数据时，执行时间分别为 16 分钟、12 分钟和 50 分钟，远优于 Spark 的 1 小时以上。” 这些结果表明，对于非极端并行需求，单节点工具足以胜任，避免了集群的 DBU（Databricks Units）消耗。

从查询延迟角度分析，Polars 的优势在于其向量化执行和懒加载策略，能最小化数据移动。证据显示，在 S3 Delta Lake 读取时，Polars 通过分区剪枝（partition pruning）仅加载相关文件，减少 I/O 开销达 40%。DuckDB 的列式存储优化同样出色，支持直接从 Parquet/Delta 格式流式聚合，避免全表加载。Daft 虽较慢，但其内存映射（memory-mapped）机制确保了稳定性，尤其适合复杂表达式。Spark 在单节点下表现欠佳，主要因其默认 200 个 shuffle 分区不适配小规模硬件，导致网络模拟开销增加。

内存效率是单节点工具的核心卖点。在 32GB 限制下，所有工具均未崩溃，Polars 的流式 sink 将中间结果直接写入磁盘，峰值内存仅 18GB。DuckDB 使用临时缓冲区管理，效率达 75% RAM 利用率。Daft 的 in-memory 执行虽需优化，但通过 chunked 处理将内存碎片控制在 10% 以内。相比 Spark 的 28GB 峰值（伴随 GC 暂停），单节点工具更适合资源受限环境。“Polars 在处理 LTM（Larger Than Memory）数据集时，通过 Lazy API 实现了高效的流式处理。” 这验证了单节点架构在湖屋中的可行性，尤其当数据分区合理时。

并行扩展方面，16 核心 CPU 的利用率显示 Polars 达 90%，DuckDB 85%，Daft 80%，Spark 仅 70%（因单节点限制）。这些工具利用多线程并行化扫描和聚合阶段，扩展性强。若硬件升级到 64GB RAM，预计延迟可进一步降低 20-30%。然而，风险包括 Polars 当前对 Delta 删除向量（Deletion Vectors）的支持不足，可能在 ACID 事务密集场景下失效；DuckDB 虽兼容，但需最新版本。

为落地这些工具，提供以下可操作参数和清单：

环境配置参数：

EC2 实例：t3.2xlarge（32GB RAM, 16 vCPU），启用增强网络（ENA）以优化 S3 访问。
S3 配置：启用 Requester Pays 减少成本；分区策略：按高基数列（如年月）分区，目标文件大小 128MB-1GB。
Delta Lake 设置：Z-order 索引 on 用户 ID 列，提升剪枝效率；优化 compacted 文件数 < 1000。

工具特定参数：

Polars：使用 pl.scan_delta('s3://path', storage_options={'aws_region': 'us-east-1'}) 启用懒加载；设置 pl.Config.set_streaming_chunk_size(1_000_000) 控制 chunk 大小；内存阈值 pl.Config.set_tbl_rows(10_000_000) 避免 eager 执行。
DuckDB：INSTALL httpfs; LOAD httpfs; 后 COPY (SELECT user_id, COUNT(*) FROM 's3://path' GROUP BY user_id ORDER BY COUNT(*) DESC) TO 'output.csv' (FORMAT CSV, HEADER);；设置 SET memory_limit='24GB'; 预留 OS 空间。
Daft：from daft import DataFrame; df = DataFrame.from_delta('s3://path').groupby("user_id").agg(pl.count()).sort("count", descending=True).to_pandas();；启用 conf.set("context.num_threads", 16) 最大化并行。
Spark（单节点备选）：spark.conf.set("spark.sql.shuffle.partitions", "16") 匹配核心数；spark.conf.set("spark.sql.adaptive.enabled", "true") 动态优化；避免 broadcast join 于大表。

监控与优化清单：

预测试：使用 df.explain()（Polars/Daft）或 EXPLAIN（DuckDB）检查计划，确保 pushdown 过滤。
I/O 监控：追踪 S3 GET 请求数 <1000 / 查询；使用 AWS CloudWatch 警报延迟> 15 分钟。
内存监控：集成 Prometheus + Grafana，阈值：RAM > 80% 触发 GC 日志；DuckDB 的 PRAGMA memory_limit 动态调整。
错误处理：捕获 _internal.DeltaProtocolError，回滚到 Parquet 扫描；测试删除向量兼容性。
扩展策略：若延迟 > 20 分钟，考虑多实例并行（e.g., Ray on Polars）；基准小数据集验证参数。
成本估算：单节点 EC2 小时费～0.3 USD vs Spark 集群～2 USD/DBU；ROI 计算：数据集 <1TB 时单节点优先。

这些参数确保在生产管道中可靠部署。例如，在 ETL 流程中，先用 Polars 扫描 Delta，聚合后 sink 到新表，避免全加载。风险缓解：定期 vacuum Delta 表，保持文件元数据 <1GB；若 OOM，降级 chunk 大小 50% 并重试。

总之，基准测试证实单节点工具在大规模 Delta Lake 分析中的潜力，Polars 和 DuckDB 尤为突出。通过上述参数和清单，可快速构建高效、成本低的管道，推动从集群向单节点转型。

资料来源：

Primary: https://dataengineeringcentral.substack.com/p/650gb-of-data-delta-lake-on-s3-polars (2025-11-12)
Supplementary: Polars GitHub Issue #22336 on streaming writes to Iceberg/Delta.