PageIndex 解析：无向量索引的推理驱动型 RAG 文档检索机制

传统向量检索范式正在遭遇越来越强的质疑。当我们将长篇财务报告、学术论文或法律合同切成固定大小的片段，再将每个片段压缩为高维向量，期待通过余弦相似性找到「相关内容」时，实际上我们正在用一种高度抽象且不可解释的方式匹配信息。问题在于：语义相似性并不等于实际相关性。用户在查询「本季度研发投入占比」时，向量引擎可能返回所有语义上涉及「研发」「投入」「季度」的片段，却无法判断哪些真正回答了这个问题，尤其是当答案跨越多个章节、需要在特定上下文中理解数字时。

PageIndex 尝试从根本上扭转这一困境。它的核心洞察是：人类专家阅读复杂文档时，从来不是靠「这句话和我问的问题像不像」来定位信息，而是沿着文档的逻辑结构逐层深入。先看目录找到相关章节，再浏览小标题定位段落，最后精读细节。PageIndex 将这一过程工程化，构建文档的「目录树结构」索引，而非向量嵌入或固定分块。检索流程分为两个明确阶段：首先，将 PDF 或 Markdown 文档解析为层级化的树结构，每个节点代表一个自然章节；其次，由 LLM 在运行时沿这棵树进行推理搜索，根据查询意图判断该往哪个分支深入，最终定位到最相关的页面或章节。

这种设计的工程实现细节值得深入探讨。PageIndex 开源仓库提供了命令行入口 python3 run_pageindex.py，核心参数控制建树粒度和信息密度。--toc-check-pages 指定在多少页范围内检测目录结构，默认值为 20 页，这对大多数规范文档足够，但对超长报告可能需要调高。--max-pages-per-node 控制每个树节点最多包含多少页，默认 10 页，决定了粒度的粗细。--max-tokens-per-node 设置节点内容上限为 20000 tokens，影响后续推理时的上下文规模。此外，--if-add-node-id、--if-add-node-summary、--if-add-doc-description 三个开关分别控制是否在树结构中附加节点标识、节点摘要和文档整体描述，这些元信息有助于 LLM 在推理时快速理解节点语义，但也会增加 token 消耗。实际部署时，需要根据目标文档的结构化程度和查询复杂度，在信息密度与推理成本之间做出权衡。

PageIndex 在 FinanceBench 金融文档问答基准上的表现验证了这一路径的有效性。该基准测试要求模型从 SEC filing、盈利披露等复杂财务文档中提取精确数值答案，传统向量 RAG 系统往往因为分块割裂上下文或向量匹配偏差而失准。PageIndex 驱动的推理系统达到了 98.7% 的准确率，显著超越了基线方法。这一成绩也支撑了 Vectify AI 的商业产品 Mafin 2.5，面向专业金融分析师提供文档问答服务。值得注意的是，PageIndex 的检索结果可以精确追溯到具体页码和章节，而传统向量检索只能给出模糊的相似片段，这在审计和合规场景中尤为重要。

然而，PageIndex 并非万能解药，存在两个需要正视的约束。第一，它高度依赖文档原有的结构层级。如果输入文档是扁平的长文本，缺乏清晰的目录、小标题或段落划分，建树质量将大打折扣，推理搜索也会失去「导航图」。对于这类文档，官方建议先使用 PageIndex OCR 等预处理工具进行结构保留式转换，再建立树索引。第二，树搜索过程对 LLM 的推理能力提出了更高要求。模型需要能够遵循指令在树结构中进行多步推理，判断哪些分支与查询相关、是否需要回溯探索其他分支。如果使用能力较弱的模型，可能出现检索路径偏差或遗漏关键节点的情况。因此，在选择推理模型时，需要在成本与精度之间做出权衡，GPT-4o 系列通常是稳态部署的选择，而更轻量的模型可用于非关键场景的快速验证。

部署模式上，PageIndex 提供了清晰的选项层级。开源仓库支持本地运行，适合希望完全控制数据、进行私有化部署的场景，依赖 OpenAI API 完成建树和推理。Cloud Service 模式则提供开箱即用的体验，通过 Chat 平台直接交互，或通过 MCP 协议和 REST API 集成到现有系统，企业版还支持私有云或本地化部署。对于已经在使用 Claude、GPT 或其他 LLM 的团队，通过 API 集成是最平滑的路径，只需将文档上传到 PageIndex 服务，获取树索引后自行调用模型进行推理搜索。需要注意的是，开源版本与云服务在建树策略和推理优化上可能存在差异，生产环境应统一版本以避免行为不一致。

综合来看，PageIndex 代表了 RAG 系统的一个重要演进方向：从依赖向量相似性的「统计匹配」转向基于文档结构的「推理导航」。它并非要完全取代向量检索，而是在专业文档分析、精确问答、可追溯性要求高的场景中提供了更可靠的替代方案。工程落地的关键在于：评估目标文档的结构化程度，选择合适的建树参数，匹配推理模型的能力与成本，并设计清晰的分层架构以支持未来的混合检索方案。

资料来源：GitHub 仓库 https://github.com/VectifyAI/PageIndex；FinanceBench 基准结果 https://github.com/VectifyAI/Mafin2.5-FinanceBench。