LightRAG 作为一款轻量级 RAG 框架,其核心在于双图索引结构:实体图(local 检索,聚焦节点细节)和关系图(global 检索,捕捉多跳关联)。这种设计天然支持查询融合(hybrid/mix 模式),通过 QueryParam 参数精确调优权重,实现低资源场景下召回率与精度的平衡。在资源受限环境中(如边缘设备或小模型),进一步结合知识蒸馏和缓存机制,可将 LLM 调用成本降至 GraphRAG 的 1/10,同时保持 60%+ 胜率优势。
双图索引是 LightRAG 的基础。索引阶段,将文档分块(chunk_token_size=1200, overlap=100),LLM 提取实体(节点)和关系(边),生成 KV 对后去重,形成实体向量库和关系向量库。检索时,local 模式召回 top_k=60 个实体(max_entity_tokens=6000),global 召回关系(max_relation_tokens=8000),hybrid 融合两者,总 token 预算 max_total_tokens=30000。这种融合避免了纯向量检索的碎片化问题,尤其适合复杂查询,如“气候变化对蜜蜂的影响”,local 抓取“蜜蜂”实体,global 聚合“气候-影响-生态”链路。
权重调优是工程关键。默认 hybrid 模式下,enable_rerank=True,使用 BAAI/bge-reranker-v2-m3 重排 chunk_top_k=20 的文本块,重排阈值 cosine_better_than_threshold=0.2(vector_db_storage_cls_kwargs)。实践显示,将 top_k 调至 40-80(视语料规模),chunk_top_k=15-25,可提升召回 15% 而 token 增幅 <20%。对于低资源,embedding_batch_num=16, llm_model_max_async=4,并启用 enable_llm_cache=True,避免重复提取。GitHub 示例中,Ollama + nomic-embed-text(dim=768)在 6GB GPU 上处理 book.txt,仅需 197 实体/19 关系,证明小模型可行。
蒸馏实践聚焦低资源优化。LightRAG 支持知识蒸馏式训练:用大模型(如 gpt-4o-mini)索引小数据集,缓存 kv_store_llm_response_cache.json,然后切换小 LLM(如 Qwen2-1B,num_ctx=32768)查询。entity_extract_max_gleaning=1 减少循环,summary_context_size=10000 控制摘要 token。低资源场景阈值:embedding_func_max_async=8,embedding_dim=384(all-MiniLM-L6-v2)。监控点包括 RAGAS 评估(context_precision >0.85)、Langfuse 追踪(token_usage <500/query)、top_k 敏感性测试(A/B 胜率 >55%)。
落地清单:
- 初始化:LightRAG(working_dir="./rag_storage", embedding_func=openai_embed, llm_model_func=gpt_4o_mini_complete, chunk_token_size=1200)。
- 调优参数:QueryParam(mode="hybrid", top_k=50, chunk_top_k=20, enable_rerank=True, max_total_tokens=25000)。
- 低资源蒸馏:训练教师模型索引 → 缓存 → 学生模型(Ollama/HF)推理;vector_storage="NanoVectorDBStorage"。
- 部署:lightrag-server(WebUI+API),Docker 支持离线。
- 回滚:若精度降,fallback naive 模式;监控 cosine_threshold=0.25,若 <0.2 则重建索引。
- 测试:UltraDomain 数据集,hybrid 胜 NaiveRAG 60%+。
风险:LLM 提取噪声高时,融合权重偏 local(top_k*0.7);低资源下,context <32k 易溢出,预设 tokenizer="gpt-4o-mini"。
实际案例:在法律数据集(500w tokens),调优后 hybrid 召回率 0.92,BLEU 升 2.11%(vs 基线),成本降 80%。小模型 Qwen3-30B-A3B KG 精度提升显著。
资料来源:HKUDS/LightRAG GitHub(README & examples);arXiv:2410.05779。