LightRAG 中的模块化层次索引：领域特定 RAG 的实体关系 schema 定制与自适应检索

LightRAG 作为一个轻量级检索增强生成（RAG）框架，其模块化层次索引机制为领域特定应用提供了强大的定制能力。通过构建知识图谱（KG）和双层检索范式，它能够捕捉实体间的复杂关系，实现自适应检索，从而显著提升在专业场景如法律分析中的 LLM 性能。这种设计不仅降低了传统 RAG 在处理领域知识时的碎片化问题，还支持增量更新，确保系统在动态环境中保持高效。

LightRAG 的核心在于图基文本索引（Graph-based Text Indexing），它将文档拆分为文本块，利用 LLM 提取实体（如 “法律条款”、“判例”）和关系（如 “条款引用判例”），形成结构化 KG。这种层次结构分为低层（实体细节）和高层（关系主题），避免了扁平索引的局限。证据显示，在法律数据集上，LightRAG 的全面性和多样性得分分别提升 83.6% 和 86.4%，远超 NaiveRAG 的 16.4% 和 13.6%。双层检索进一步强化了这一优势：local 模式聚焦实体邻域，global 模式遍历高层关系，hybrid 模式融合两者，提供多跳推理支持。

为实现领域特定 RAG，LightRAG 支持定制实体 - 关系 schema。通过 addon_params 参数指定 entity_types（如 ["law", "case", "precedent", "party"]），LLM 提取将针对法律术语优化。同时，insert_custom_kg 方法允许手动插入领域知识，如 chunks、entities 和 relationships，确保 schema 符合专业需求。例如，在法律分析中，可定义关系如 "precedent_influences_case"，并注入判例描述，提升检索相关性。

自适应检索通过查询参数实现灵活控制。关键参数包括 top_k（默认 60，用于实体 / 关系检索数量）和 chunk_top_k（默认 20，文本块检索），可根据领域复杂度调整为 30-100 以平衡精度和速度。查询模式选择：legal 分析推荐 hybrid 模式，max_entity_tokens=6000 和 max_relation_tokens=8000 分配令牌预算，避免上下文溢出。启用 rerank（如 BAAI/bge-reranker-v2-m3）可进一步提升 20% 相关性。

落地清单如下：

定义领域 schema：列出核心实体类型（如法律：law, case, precedent）和关系（如 cites, overrides），通过 addon_params 配置。
构建索引：使用 rag.insert (文档) 或 insert_custom_kg 注入领域数据；chunk_token_size=1200，overlap=100 以保留上下文。
配置检索：QueryParam (mode="hybrid", top_k=50, enable_rerank=True)；集成 LLM 如 gpt-4o-mini，llm_model_max_async=4 优化并发。
监控与回滚：启用 LLM 缓存（enable_llm_cache=True），监控 token 使用（TokenTracker）；若精度下降，回滚至 naive 模式或调整 cosine_threshold=0.2。
部署扩展：选择 Neo4J 作为 graph_storage 以支持复杂查询；PostgreSQL 作为一站式存储，结合 RAGAS 评估框架验证效果。

在法律 LLM 应用中，此机制可实现判例检索和条款分析，如查询 “本案判例引用” 时，hybrid 模式自动聚合相关实体和关系，生成结构化输出。相比通用 RAG，定制 schema 减少了 40% 幻觉率，支持多轮对话。

资料来源：HKUDS/LightRAG GitHub 仓库（https://github.com/HKUDS/LightRAG）；LightRAG 论文（arXiv:2410.05779）。