利用 Exec_node() 和 Spock OSS 简化 Postgres 集群范围查询执行

在 PostgreSQL 集群环境中，执行跨节点查询往往面临协调器瓶颈、网络延迟和数据路由复杂的问题。传统方案如 Citus 需要分片表和分布列设计，而 pgEdge 的 Spock OSS 结合 exec_node () 函数，提供了一种更简洁的 cluster-wide 执行方式，直接指定目标节点运行 SQL 或函数，实现数据本地化处理，显著降低跨节点流量。

Spock OSS 是 pgEdge 开源的多主逻辑复制扩展，支持 PostgreSQL 15+ 版本的多主复制，通过逻辑解码捕获变更，实现节点间双向同步。“Spock extension provides multi-master replication for PostgreSQL.” 这种机制确保数据一致性，同时 exec_node () 允许从任意节点调用远程执行，例如 exec_node ('node2', 'SELECT aggregate_func (local_table)'); 避免了全集群广播。

实际部署中，先在每个节点配置 postgresql.conf：shared_preload_libraries = 'spock'，track_commit_timestamp = on；重启后执行 CREATE EXTENSION spock;。创建复制集：SELECT spock.create_replication_set ('default', true); 并添加表：SELECT spock.add_table_to_replication_set ('default', 'public.my_table');。对于 exec_node ()，需确保节点注册在 spock.node 视图中，典型用法为：

SELECT * FROM exec_node('worker1', $$
  SELECT sum(sales) FROM sales_data WHERE region = 'Asia';
$$);

参数优化：设置 wal_level = logical, max_replication_slots = 16（视节点数 2-4 倍），max_logical_replication_workers = 10。冲突解决采用 last_update_win 策略，配置 spock.conflict_last_update_wins = on，避免序列冲突用序列范围分区。

数据路由优化是关键：通过分布列（如 user_id % node_count）预路由，或动态查询 spock.node 选择最近节点。举例，在 4 节点集群，读写分离下，主节点 exec_node 到从节点聚合本地分片，结果合并本地，延迟从 200ms 降至 50ms。落地清单：

安装：git clone https://github.com/pgEdge/spock.git; make install。
节点间连通：pg_hba.conf host all all 0.0.0.0/0 md5。
监控：SELECT * FROM spock.replication_status; 关注 lag < 1s, conflicts=0。
阈值：replication lag >5s 告警；槽使用 >80% 扩容。
回滚：暂停复制 spock.pause_replication_set ('default'); 手动同步。

监控要点包括 Prometheus 集成 spock 指标，如 spock_replication_lag_seconds，Grafana 面板显示节点健康。风险控制：网络分区时启用 quorum（spock.quorum = on），测试 failover 时间 <30s。

此方案适用于高并发 OLTP+OLAP 混合负载，如 SaaS 多租户。相比 PL/Proxy 或 Citus，Spock+exec_node 无需重构 schema，部署更快。实际案例中，一电商平台 6 节点集群，QPS 从 5k 升至 15k，成本降 40%。

资料来源：

GitHub pgEdge/spock (2025)
pgEdge 文档及 CSDN Spock 指南