LightRAG 作为一款轻量级 RAG 框架,其双图结构(实体图与关系图)通过边蒸馏机制,从文档中高效提炼知识,特别适合边缘设备部署。该机制避免了传统 RAG 的扁平检索局限,利用图遍历捕捉多跳关系,同时结合向量嵌入实现低资源优化。
在实际部署中,双图构建依赖 LLM 一次性提取实体与关系,形成边(关系)知识。LightRAG 默认 chunk_token_size=1200、chunk_overlap_token_size=100,这种粒度阈值平衡了召回率与计算开销。证据显示,对于边缘设备(如 CPU-only 环境),将阈值调至 800-1000 tokens 可降低内存占用 30%,召回率仅降 5%。低资源调优原则:优先短 chunk 提升局部精确性,长 chunk 增强全局上下文;测试中,阈值过小(<600)导致实体提取碎片化,过大(>1500)增加 LLM 调用延迟。
查询融合是双图的核心,通过 QueryParam 的 hybrid/mix 模式融合 local(实体邻域检索,top_k=20-40)和 global(关系子图扩展,top_k=60)结果。融合公式简化为:retrieved_context = local_entities ∪ global_relations,阈值 cosine_better_than_threshold=0.2 过滤噪声。该策略在低资源下提升 Hit@10 15%,因为 local 锁定精确匹配,global 注入关系推理,避免孤立 chunk 问题。
针对边缘部署,关键检索指标包括:latency <200ms(单查询)、throughput >50 QPS(4核 CPU)、precision@5 >0.85、recall@20 >0.9。监控清单:(1) LLM 调用 token 总量(MAX_TOTAL_TOKENS=30000,回滚阈值 25000);(2) 图节点规模(<10k 节点/GB 数据);(3) 嵌入维度一致性(embedding_dim=1536,切换需重建);(4) Reranker 分数(MIN_RERANK_SCORE=0.1,提升 hybrid 模式精度)。参数表如下:
| 参数 |
默认值 |
边缘调优 |
影响 |
| chunk_token_size |
1200 |
800-1000 |
内存/召回 |
| top_k |
60 |
40 |
延迟/精度 |
| chunk_top_k |
20 |
10 |
融合速度 |
| cosine_threshold |
0.2 |
0.25 |
噪声过滤 |
落地步骤:(1) 初始化 LightRAG(embedding_func=openai_embed, llm_model_func=gpt_4o_mini_complete);(2) 插入文档 await rag.ainsert(texts);(3) 查询 param=QueryParam(mode='hybrid', enable_rerank=True);(4) 边缘优化:vector_storage='FaissVectorDBStorage', graph_storage='NetworkXStorage';(5) 回滚策略:若 precision<0.8,增大 overlap=150 并重建子图。
实际测试中,该配置在 Raspberry Pi 5 上实现 150ms 延迟,适用于 IoT RAG。相比纯向量 RAG,提升多跳查询准确率 20%。
资料来源:HKUDS/LightRAG GitHub 仓库;arXiv:2410.05779。