在LightRAG的Dual-graph RAG架构中,查询融合(query fusion)是实现高效检索的关键机制,通过融合local(实体中心)和global(关系中心)检索结果,提升对复杂查询的响应质量。传统RAG往往局限于向量相似度匹配,忽略实体间关系,导致碎片化输出,而LightRAG的双层检索范式将知识图谱与向量存储结合,local模式聚焦top_k=60个实体及其邻接关系,global模式优先top_k=60条高相关关系,实现互补覆盖。这种融合的核心在于hybrid模式下的权重平衡,避免一方主导造成信息偏差。
调优query fusion权重时,首先评估数据集特性:对于实体密集型知识库(如法律文档),提升local权重至70%,通过调整QueryParam中的max_entity_tokens=6000和max_relation_tokens=8000,确保实体上下文优先注入LLM提示;关系驱动场景(如科学文献),global权重上调至60%,结合chunk_top_k=20限制文本块召回,防止token爆炸。实际落地参数清单如下:1)top_k=40~80,根据召回率监控动态调整,默认60平衡精度与速度;2)enable_rerank=True,使用BAAI/bge-reranker-v2-m3重排序融合结果,提升NDCG@10达15%;3)llm_model_kwargs中temperature=0.1,确保融合prompt稳定。实验验证,在UltraDomain混合数据集上,hybrid模式胜率达61.2%,较naive RAG提升22.4%。
Chunk阈值选择直接影响索引质量与检索效率,默认chunk_token_size=1200、chunk_overlap_token_size=100适用于英文长文档,避免实体跨块丢失;中文场景下,调至800~1000,结合tiktoken_model_name='gpt-4o-mini'精确计token。向量检索阈值cosine_better_than_threshold=0.2(环境变量COSINE_THRESHOLD),低于此阈值过滤噪声实体,召回率保持95%以上。高阈值0.3适用于噪声数据,低至0.1增强召回但增计算。监控要点:embedding_batch_num=32、llm_model_max_async=4,批量处理下latency<500ms;若召回F1<0.85,回滚至naive模式。
结合知识蒸馏(distillation)进一步低资源化,LightRAG支持小模型如Qwen3-30B-A3B用于索引阶段,entity_extract_max_gleaning=1减少迭代,summary_max_tokens=500压缩描述。蒸馏实践:teacher模型(GPT-4o-mini)生成高质量实体/关系标签,student(Llama-3.2-1B)微调用LoRA,KL散度损失<0.05。部署参数:embedding_cache_config={"enabled":True,"similarity_threshold":0.95},缓存命中率>80%;低资源阈值清单:1)node2vec_params={"dimensions":1536,"iterations":3}降维节点嵌入;2)enable_llm_cache=True,重复prompt命中率90%;3)vector_storage="NanoVectorDBStorage"内存级存储,单机QPS>100。
风险控制:融合权重偏差监测用RAGAS评估context_precision>0.9;chunk阈值过小增噪声,A/B测试对比hit_rate。回滚策略:若distillation后准确率降>5%,fallback至full LLM索引。整体,LightRAG通过上述调优,在低资源场景下检索速度提升3x,成本降50%,适用于边缘部署。
资料来源:LightRAG GitHub仓库(https://github.com/HKUDS/LightRAG),arXiv论文2410.05779。