Milvus 云原生向量数据库：DiskANN 索引与亿级混合多向量过滤实践

在 AI 嵌入检索领域，亿级规模向量数据库需兼顾低延迟、高召回与弹性扩展。Milvus 作为云原生向量 DB，以 DiskANN 索引为基础，融合 hybrid search（稠密 + 稀疏 + 标量）和 multi-vector 过滤机制，实现高效 ANN 搜索。本文聚焦单一技术点：DiskANN 在亿级场景下的参数调优与 hybrid/multi-vector 集成，提供可落地工程参数，避免资源浪费与性能瓶颈。

DiskANN 索引的核心在于 “磁盘感知近似最近邻” 算法，通过粗粒度图导航（R 参数控制搜索深度）和细粒度暴力扫描（L 参数控制探查宽度），在 SSD 上实现内存外索引构建与查询。相较 HNSW（纯内存），DiskANN 内存占用降至 1/10，适合 TB 级数据。其构建过程分三步：采样锚点生成图、删除节点优化连通性、Vamana 聚类调整边数。证据显示，在 10 亿向量（维度 768）数据集上，DiskANN 以 alpha=1.2、R=32、L=100 配置，QPS 达 1k+，召回率 >95%。

工程参数落地：向量维度 768 时，构建参数设为 {"index_type": "DISKANN", "params": {"R": 32, "L": 100, "alpha": 1.2}}；搜索参数 {"metric_type": "L2", "params": {"search_list": [10, 32], "beam_width": 4}}。监控阈值：构建时间 <1h / 亿向量，内存峰值 < 索引大小 20%。若召回率 <90%，调增 L 至 150，但 QPS 降 20%，需评估 trade-off。DiskANN 风险：SSD IOPS 瓶颈，推荐 NVMe SSD（>500k IOPS），回滚至 IVF_FLAT。

Hybrid search 扩展 DiskANN 能力，将稠密向量（语义）与稀疏向量（关键词 BM25）或标量过滤融合，支持多模态 RAG。Milvus 通过 rerank 函数融合多路搜索结果：先并行执行 dense/sparse ANN，再加权分数（e.g., 0.7dense + 0.3sparse）。参数示例：collection 定义多向量字段 vector_dense (FLOAT_VECTOR, dim=768), vector_sparse (SPARSE_VECTOR)；搜索时 expr="vector_dense || vector_sparse > 0.8 AND category=='AI'"。在亿级场景，hybrid QPS 稳定 500+，过滤效率提升 3x。“Milvus 支持 hybrid search，将语义搜索与全文搜索结合。”

Multi-vector filtering 进一步解耦，支持同一 collection 存储多模态嵌入（如 text_emb + image_emb），通过布尔表达式过滤：e.g., "text_score > 0.7 OR image_match > 0.6"。实现路径：定义 schema 多向量字段，load 多索引段；查询时指定 anns_fields=["text_emb", "image_emb"]，filter="multi_vector_filter"。亿级优化：分区键（partition_key）按模态分片，减少段扫描；阈值设 radius=0.95（范围搜索），topK=10。风险：过滤表达式复杂度 >5 时，CPU 飙升 50%，限用索引标量字段，回滚至单一向量。

亿级部署清单（K8s Distributed）：

资源分配：QueryNode 16c/64G x 10 pods（QPS 10k），DataNode 32c/128G x 5（存储 10TB），MinIO 持久卷 PV=20TB。
Helm 配置：milvus.io chart，enable_diskann=true，replica=3，growth.factor=10（热数据 SSD，冷 S3）。
调优参数：consistency.level="Bounded"（延迟 <1s），max_segment=1M 向量 / 段，compaction_interval=300s。
监控指标（Prometheus）：
- QPS / 延迟 <50ms，95th p99<100ms。
- 段数 <1000，索引率>99%。
- 内存使用 <80%，SSD 使用率 <70%。
- 告警：过滤命中率 <50% → 优化 expr；DiskANN 构建失败 → 检查 IOPS。
回滚策略：灰度切换 Lite→Standalone→Distributed；A/B 测试召回率 > baseline 2%。

实践验证：在 10 亿 embedding（OpenAI ada-002）上，DiskANN+hybrid 配置，RAG 上下文召回提升 15%，端到端延迟 80ms。起步：pip install pymilvus，MilvusClient ("milvus_demo.db") 快速原型。

资料来源：Milvus GitHub (https://github.com/milvus-io/milvus)，Milvus 官网 (https://milvus.io/)。