LightRAG 中的双本地-全局图索引与查询融合

LightRAG 作为一款高效的检索增强生成（RAG）框架，其核心创新在于双本地 - 全局图索引（dual local-global graph indexing）与查询融合（query fusion）机制。这种设计摒弃了传统 RAG 的扁平文本块检索，转而构建知识图谱来捕捉实体间的复杂依赖，实现从局部实体细节到全局主题关联的无缝覆盖。不同于需要复杂蒸馏的方案，LightRAG 纯工程优化即可加速低资源环境下的 RAG 性能，在基准测试中全面超越 NaiveRAG 和 GraphRAG，尤其在全面性、多样性和赋权性指标上胜率达 60% 以上。

双本地 - 全局图索引的核心是图基文本索引（Graph-based Text Indexing）流程。首先，文档被切分成 1200 token 的块（chunk_token_size=1200，重叠 100 token），LLM 提取实体（如人名、组织）和关系（如 “诊断”），形成节点 V 和边 E。随后，为每个实体 / 关系生成键值对：键为检索关键词（如实体名），值为 LLM 浓缩的描述（summary_max_tokens=500）。去重操作（Dedupe）合并重复项，避免图冗余。最终索引图 D̃ = (Ṽ, Ẽ) 支持向量存储（如 NanoVectorDB）和图存储（如 NetworkX 或 Neo4J）。这种结构化表示天然融合了实体检索（local）和关系检索（global），证据显示仅用图摘要即可接近全文本性能，避免了原始 chunk 的噪声。

查询融合阶段进一步强化检索效率。给定查询 q，LLM 先提取低层关键词（low-level keys，如具体实体）和高层关键词（high-level keys，如主题摘要），仅需一次 API 调用（<100 token）。低层检索匹配实体键（top_k=60），高层匹配关系键；随后扩展一跳邻居（1-hop），纳入高阶关联。检索结果融合为统一上下文：实体 token 限 6000、关系 8000，总限 30000（QueryParam 中的 max_entity_tokens 等）。Reranker（如 BAAI/bge-reranker-v2-m3）可选重排 chunk（chunk_top_k=20，enable_rerank=True）。最终提示注入 LLM 生成响应，支持 hybrid 模式融合 local/global。LightRAG 的流程图清晰展示了这一 dual-level retrieval：local 聚焦上下文依赖，global 挖掘全局知识，hybrid 结合二者优于单一模式。

工程落地时，参数调优至关重要。初始化 LightRAG 时，embedding_func（如 openai_embed，dim=1536）和 llm_model_func（如 gpt-4o-mini）需一致，避免维度 mismatch。索引阶段，entity_extract_max_gleaning=1 控制循环，embedding_batch_num=32 并发加速。查询 Param 中，mode=hybrid 为默认，top_k=60 平衡召回 / 精度（法律数据集 >80% 胜率），cosine_better_than_threshold=0.2 过滤低质向量。存储选型：开发用 JsonKVStorage + NanoVectorDB + NetworkX；生产用 PGVectorStorage + Neo4J（URI=neo4j://localhost:7687）。增量更新无缝：新文档 insert 后自动合并子图，无需重建。

监控要点包括：Langfuse 追踪（LANGFUSE_ENABLE_TRACE=true）记录 token/latency/cost；RAGAS 评估 context_precision 等（pip install lightrag-hku [observability]）。风险如实体提取噪声，可用 enable_llm_cache=True 缓存 LLM 响应，回滚策略：clear_cache (modes=["hybrid"]) 重置。部署 Docker compose up，支持 Ollama（num_ctx=32768）。实际参数清单：

索引参数：chunk_token_size=1200, overlap=100, summary_context_size=10000。
查询阈值：TOP_K=60, CHUNK_TOP_K=20, MAX_TOTAL_TOKENS=30000。
并发：llm_model_max_async=4, embedding_func_max_async=16。
存储：vector_db_storage_cls_kwargs={"cosine_better_than_threshold": 0.2}。

在农业 / 法律等数据集，LightRAG hybrid 模式多样性胜率 67-86%，远超基线。引用 GitHub README：“LightRAG Retrieval and Querying Flowchart 显示 Dual-Level Retrieval”。这种 distillation-free 工程路径，使低资源团队（单 GPU）即可加速 RAG 10 倍，适用于企业知识库、学术问答。

扩展场景：自定义 KG insert_custom_kg () 注入预构建图；多模态经 RAG-Anything 处理 PDF / 图像。回滚：adelete_by_doc_id () 删文档重构。LightRAG 证明：简单图索引 + 查询融合，即可解锁 RAG 新范式。

来源：https://github.com/HKUDS/LightRAG；arXiv:2410.05779。