LightRAG双图索引查询融合蒸馏：低资源RAG动态chunk阈值与实体优化

LightRAG 作为一款轻量级图增强 RAG 框架，通过双图索引（实体图 + 向量存储）和查询融合机制，在低资源环境下显著提升检索精度与效率。相较传统 NaiveRAG，其 hybrid 模式胜率达 60% 以上，尤其适合内存受限场景。双图设计将实体 / 关系嵌入知识图（NetworkX 或 Neo4j），结合向量 DB（如 NanoVectorDB）支持小模型 LLM（≥32B 参数，推荐 Qwen3-30B），实现增量更新无重建。

动态 chunk 阈值是低资源优化的核心起点。默认 chunk_token_size=1200、overlap=100，使用 TiktokenTokenizer（gpt-4o-mini 模型），可根据文档密度调整：短文档设 800-1000 避免信息稀疏，长文档增至 1500-2000 提升覆盖。证据显示，chunk_size 过小导致实体提取碎片化，召回率降 15%；过大则超上下文窗（推荐 LLM≥32K tokens）。落地参数：entity_extract_max_gleaning=1（单轮提取加速），embedding_batch_num=32、llm_model_max_async=4 并行处理，适用于 4-8GB RAM 环境。监控点：summary_context_size=10000（实体合并 tokens 上限），超阈值时降 summary_max_tokens=500。实际测试 book.txt（188K）索引耗时 < 2min，成本约 2 元。

实体关系检索优化聚焦阈值调优与 reranker 集成。vector_db_storage_cls_kwargs={"cosine_better_than_threshold":0.2} 过滤低质向量，结合 BAAI/bge-reranker-v2-m3（mix 模式默认），hybrid 查询 top_k=60、chunk_top_k=20，max_entity_tokens=6000、max_relation_tokens=8000、max_total_tokens=30000 控制预算。低资源下，禁用 rerank（enable_rerank=False）降延迟 30%，或用 Ollama+nomic-embed-text（dim=768）。QueryParam 模式融合：local（实体邻域，top_k 实体）、global（关系主题）、hybrid（二者 union+1-hop 扩展）。证据：LightRAG 在农业 / 法律数据集 comprehensiveness 胜 GraphRAG 67.6% vs 45.6%，因双层关键词（low-level 实体 + high-level 主题）精确匹配。

高效工程部署清单确保低资源落地：

初始化：rag=LightRAG (working_dir="./rag_storage", chunk_token_size=1200, chunk_overlap_token_size=100, embedding_func=openai_embed, llm_model_func=gpt_4o_mini_complete)；await rag.initialize_storages ()。
存储选型：开发用 JsonKV+NetworkX+NanoVectorDB（<1GB 数据）；生产 PostgreSQL（一站式 KV/Vector/Graph，v16.6+）或 Neo4j（图优）。
Pipeline：max_parallel_insert=4（LLM 瓶颈下 < 10），enable_llm_cache=True 保留 kv_store_llm_response_cache.json。
部署：uv sync --extra api；lightrag-server（Ollama 兼容 WebUI）；Docker compose up。
监控 / 回滚：Langfuse Tracing（[observability] 插件）；RAGAS 评估 context_precision；异常时 aclear_cache (modes=["hybrid"])，adelete_by_doc_id 回滚文档。
低资源阈值：embedding_func_max_async=8，llm_model_kwargs={"options":{"num_ctx":32768}}（Ollama 小模型）。

风险：小 LLM 实体提取准度低（用≥32B），大规模图转 Neo4j 防 OOM。参数调优基于数据集测试：农业 / 法律偏 global（top_k=40），CS/mix 用 hybrid（chunk_top_k=30）。

资料来源：HKUDS/LightRAG GitHub；arXiv:2410.05779。