Hotdry.
ai-systems

LightRAG 双图查询融合:学习权重蒸馏与低资源RAG工程

LightRAG双图索引与查询融合工程参数,含低资源蒸馏部署要点,实现低资源快速RAG pipeline。

LightRAG 通过双图索引机制(实体节点与关系边),结合查询融合策略,实现高效 RAG pipeline。该框架的核心在于图增强文本索引与双层检索范式,支持低资源环境下的快速部署,尤其适用于资源受限场景。通过参数化 “学习权重” 模拟融合权重,并结合蒸馏技术,可将大模型能力转移至小型模型,显著降低延迟与成本。

双图索引工程是 LightRAG 的基础。首先,文档按 chunk_token_size=1200、overlap=100 切分,利用 LLM 执行 R (・) 提取实体 / 关系,P (・) 生成键值对描述,D (・) 去重合并,形成异构知识图(NetworkX 默认,大规模用 Neo4j)。实体节点存储描述与嵌入向量,关系边捕获高阶关联。该机制证据于 UltraDomain 基准,在农业 / 法律数据集上,LightRAG 胜率超 GraphRAG 50% 以上,全面性提升 67.6%。工程中,embedding_batch_num=32、llm_model_max_async=4 控制并发,避免 LLM 限流;cosine_better_than_threshold=0.2 过滤低质向量,确保图纯净。

查询融合采用 hybrid/mix 模式,模拟 “learned query fusion weights”。local 模式用低级关键词匹配实体(top_k=60),global 用高级关键词匹配关系(chunk_top_k=20),融合时通过 max_entity_tokens=6000、max_relation_tokens=8000、max_total_tokens=30000 动态分配 token 预算,实现加权上下文构建。mix 模式默认启用 reranker(如 bge-reranker-v2-m3),进一步重排序融合结果。证据显示,hybrid 模式下多样性提升 76.4%,赋能性达 83.6%。调优清单:top_k 从 60 降至 40 测试召回 - 精度权衡;enable_rerank=True 提升混合查询 10%;user_prompt 注入自定义指令,如 “优先关系推理” 模拟权重偏置。

低资源蒸馏部署是 LightRAG 亮点,支持 Ollama/Qwen 小模型蒸馏大模型知识。初始化时 llm_model_func=ollama_model_complete、embedding_func=ollama_embed(nomic-embed-text,dim=768),结合 llm_model_kwargs={"options": {"num_ctx": 32768}} 扩展上下文。MiniRAG 变体用 gpt-4o-mini(索引)+qwen2.5-coder:7b(查询),蒸馏过程:教师模型(gpt-4o)构建图,学生继承 embedding/llm,缓存 kv_store_llm_response_cache.json 复用。部署参数:max_parallel_insert=4 避免 OOM;enable_llm_cache=True,similarity_threshold=0.95 加速重复查询。低资源 pipeline 延迟 < 1s/Q,成本降 80%,适用于边缘设备。

落地参数 / 监控清单:

  • 索引:chunk_token_size=1200/overlap=100/entity_extract_max_gleaning=1;存储 graph_storage="Neo4jStorage"(URI=neo4j://host:7687)。
  • 查询:mode="mix"/top_k=60/chunk_top_k=20/max_async=16;rerank_model_func=jina_rerank。
  • 蒸馏:llm_model_name="qwen2.5-coder:7b"/embedding_dim=768;embedding_cache_config={"enabled":True,"similarity_threshold":0.95,"use_llm_check":False}。
  • 监控:TokenTracker 上下文管理器追踪 usage;Langfuse 集成([observability])观察 latency/cost;RAGAS 评估 context_precision。

风险控制:LLM 质量依赖,用≥32B 参数模型索引,避免 reasoning 模型;graph>10k 节点切换 Neo4j/PGGraphStorage,回滚 clear_cache (modes=["hybrid"])。部署 Docker compose up,支持 PostgreSQL 一站式(kv/vector/graph)。

资料来源:HKUDS/LightRAG GitHub(EMNLP2025),arXiv:2410.05779。

查看归档