2025年11月20日 ai-systems

Milvus 中向量分片与分区设计：万亿级存储的动态负载均衡与容错复制

探讨 Milvus 在万亿级向量存储中的分片与分区策略，包括动态负载均衡机制和容错复制实现，提供工程化参数与监控要点。

内容加载中...

在 AI 应用中，向量数据库已成为处理海量非结构化数据的核心基础设施。Milvus 作为一款开源的云原生向量数据库，通过精巧的分片（Sharding）和分区（Partitioning）设计，实现了万亿级向量存储的分布式扩展。这种设计不仅支持动态负载均衡，还确保了高容错性，使得系统能够在高并发查询和数据增长场景下保持低延迟和高可用性。相较于传统数据库，Milvus 的架构将存储与计算分离，利用 Kubernetes 原生部署，实现无缝横向扩展，避免单点瓶颈。

Milvus 的分片机制主要针对写入操作的并行化处理。每个集合（Collection）默认配置 2 个分片（Shard），通过主键哈希算法将数据均匀分布到不同节点上。这种哈希分片方式确保了写入负载的均衡，避免了热点问题。根据官方架构文档，Milvus 的 Streaming Node 负责处理增长中的数据（Growing Segment），而分片数据动态分布在多个节点上，每个分片可容纳超过 10 亿个数据点。这种设计证据于 Milvus 的双层路由系统：首先在分片级别路由，然后在 Segment 级别进一步均衡。未来版本（如 Milvus 3.0）将引入动态分片拆分，进一步减少手动干预。

分区则聚焦于读取优化的逻辑划分。分区将集合数据根据业务规则（如时间、类别）物理隔离，每个分区包含多个 Segment，用于减少查询扫描范围。例如，在 RAG（Retrieval-Augmented Generation）应用中，可按文档类型分区，仅扫描相关分区以提升召回效率。Milvus 的 Query Node 加载密封 Segment（Sealed Segment）进行历史数据查询，支持元数据过滤和向量相似度计算。证据显示，这种分区策略结合 HNSW 或 IVF 等索引，能在亿级数据上实现毫秒级响应。

动态负载均衡是 Milvus 实现万亿级扩展的关键。系统采用基于 Segment 的架构：Growing Segment 由 Streaming Node 处理实时查询，Sealed Segment 由 Query Node 加速搜索。这些 Segment 在节点间自动均衡分布，利用 Kubernetes 的弹性调度，根据负载自动调整资源分配。双层路由确保查询请求路由到持有相关分片数据的节点，避免全局扫描。官方基准测试表明，在 Kubernetes 集群中扩展 Query Node 可线性提升 QPS，支持数万次并发查询而延迟保持在 10ms 以内。这种动态性通过 Woodpecker WAL（Write-Ahead Log）层增强，零磁盘设计直接写入对象存储（如 MinIO 或 S3），简化运维并降低成本。

容错复制机制保障了系统的可靠性。Milvus 支持多副本存储，默认 3 副本策略：数据分片在多个节点复制，节点故障时副本自动接管服务。架构中，Coordinator 负责集群拓扑管理和负载均衡，检测故障后快速重分配任务。WAL 存储（如 Kafka 或 Pulsar）记录所有变更，确保数据耐久性和一致性。跨区域部署进一步提升可用性，例如在北京和上海机房间复制数据，实现零数据丢失。证据来自 Milvus 的高可用设计：无状态 Worker Node 支持 Kubernetes 自动恢复，结合 etcd 元数据存储的强一致性，系统 MTTR（Mean Time To Recovery）可控制在秒级。

为实现万亿级向量存储，以下是可落地参数和清单：

分片与分区参数配置：

Shard 数量：初始 2-4，根据数据增长动态调整至 16（过多增加元数据开销）。使用 create_collection API 设置 num_shards。
Partition 策略：按业务键（如用户 ID 或时间窗）分区，目标每个分区 1000 万实体。使用 create_partition 创建动态分区。
Segment 大小阈值：Growing Segment 达 10MB 时密封，触发 compaction 以合并小 Segment，优化查询性能。
索引类型：大规模场景选 IVF_PQ（量化压缩，节省 90% 存储）或 HNSW（低延迟，M=16，efConstruction=200）。

动态负载均衡清单：

部署 Kubernetes 集群（最小 3 节点，主从分离），使用 Helm Chart 安装 Milvus（helm install milvus milvus/milvus）。
配置 autoscaling：Query Node HPA（Horizontal Pod Autoscaler）基于 CPU 70% 阈值扩展，目标 10-50 Pods。
监控负载：集成 Prometheus + Grafana，追踪 QPS、延迟、节点 CPU/Memory 使用率。设置警报：单节点负载 >80% 时自动扩容。
路由优化：启用双层路由，定期（每日）运行 balance_segments 任务均衡 Segment 分布。

容错复制清单：

副本数：设置 replica_num=3，使用 create_replica 在多可用区部署。
WAL 配置：选用 Pulsar 或 Kafka，主题数 256（PChannel），确保 RPO=0（无数据丢失）。
故障恢复：启用 Coordinator 的健康检查，每 5s 心跳；节点故障时，etcd 触发 failover，恢复时间 <30s。
备份策略：每日全量备份对象存储（S3），增量 WAL 日志；测试恢复流程，确保 RTO <5min。
跨集群复制：使用 Milvus CDC 工具同步多集群，阈值延迟 <1s。

在实际部署中，建议从小规模（百万向量）起步，监控指标逐步扩展至万亿级。风险包括分片不均导致热点（解决方案：自定义哈希键）和资源峰值（预留 20% 缓冲）。通过这些参数，Milvus 可支持 trillion-scale 存储，如在推荐系统或多模态搜索中处理 PB 级数据。

资料来源：

Milvus 官方文档：https://milvus.io/docs/architecture_overview.md
Milvus GitHub 仓库：https://github.com/milvus-io/milvus
相关基准测试与架构分析（CSDN 等社区文章）。

（本文约 950 字）