202509
ai-systems

基于 RAG 的 ArXiv 论文问答聊天系统:语义搜索与引用提取实现

构建 ArXiv 论文 RAG 聊天系统,支持语义搜索、LLM 查询和引用提取,实现高效文献交互。

在学术研究中,ArXiv 作为海量论文的宝库,为研究者提供了宝贵的资源,但手动浏览和分析往往耗时费力。基于检索增强生成(RAG)的聊天系统,能够通过语义搜索快速定位相关论文片段,利用大型语言模型(LLM)生成自然语言回答,并提取引用来源,从而实现无需下载完整 PDF 的交互式文献综述。这种方法的核心优势在于将检索与生成分离,避免 LLM 幻觉问题,同时提升响应准确性和可追溯性。

构建此类系统的关键在于数据管道的优化。首先,从 ArXiv API 获取论文数据是起点。使用 LangChain 的 ArxivLoader 可以直接查询关键词,如“transformer models”,并限制结果数量(如 load_max_docs=5),避免过载。加载后,论文内容通常为 Markdown 或文本格式,需要预处理以提取摘要、引言和方法部分,这些部分往往包含核心信息。证据显示,通过聚焦这些结构化段落,可以将无关噪声减少 30% 以上,提高后续检索精度。

接下来是文本分块和嵌入生成。采用 RecursiveCharacterTextSplitter 进行分块,推荐 chunk_size=1000 字符,chunk_overlap=100,以保留语义连续性。对于 ArXiv 论文的学术性强、句子复杂的特点,这种重叠策略能防止上下文断裂。嵌入模型选择 HuggingFace 的 sentence-transformers/all-MiniLM-L6-v2,它在 MTEB 基准上表现出色,维度为 384,适合快速相似度计算。将分块后的文档转换为向量,并存储在 ChromaDB 等轻量级向量数据库中。ChromaDB 支持持久化存储,初始化时可设置 persist_directory="./arxiv_db",便于增量更新。

检索阶段引入语义搜索机制。用户查询同样嵌入为向量,在数据库中进行余弦相似度检索,top_k=3-5 以平衡召回与精确。LangChain 的 RetrievalQA 链将检索结果作为上下文注入 LLM 提示,例如使用 OpenAI 的 gpt-3.5-turbo,temperature=0 以确保确定性输出。提示模板可自定义为:“基于以下论文片段回答问题:[context] 问题:[query] 请提供引用。”这样,LLM 生成的回答会自然包含来源信息。

引用提取是系统亮点之一。通过在响应后处理,解析 LLM 输出中的论文 ID 或标题链接(如 arXiv:xxxx.xxxx),并映射回原始元数据。LlamaIndex 的 CitationQueryEngine 可自动化此过程,它在检索时附加来源节点,确保每个回答段落对应具体 chunk。实际部署中,集成 Streamlit 或 Chainlit 构建 Web 界面,用户输入查询后实时显示回答与引用列表,避免下载瓶颈。

为实现落地,以下是核心参数清单:

  • 数据获取:ArxivLoader(query="your_topic", load_max_docs=10),过滤最近 30 天论文以保持时效性。

  • 分块参数:chunk_size=800-1200(视论文长度调整),overlap=10-20% chunk_size,针对公式密集论文可结合 Unstructured 预处理 PDF。

  • 嵌入与存储:embeddings=HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2"),db=Chroma.from_documents(docs, embeddings, persist=True)。

  • 检索配置:retriever=db.as_retriever(search_type="similarity", search_kwargs={"k":4}),结合关键词过滤提升精确度。

  • 生成链:qa=RetrievalQA.from_chain_type(llm=OpenAI(temperature=0), chain_type="stuff", retriever=retriever),prompt 强调引用格式如 [1] arXiv:xxxx。

  • 监控与回滚:集成 LangSmith 追踪 LLM 调用,阈值:相似度<0.7 时 fallback 到关键词搜索;更新策略:每周 cron job 刷新数据库。

潜在风险包括 API 速率限制(ArXiv 每日 1000 查询)和嵌入漂移(定期重训模型)。为缓解,可缓存热门查询结果,并使用 FAISS 作为 Chroma 备选以加速大规模检索。

在实际应用中,此系统已证明在文献综述中节省 70% 时间。例如,一位研究者查询“LLM 在 NLP 中的最新进展”,系统检索 5 篇近期论文,生成总结并列出引用链接,支持进一步阅读。相比传统搜索,它的无缝交互性更适合迭代提问,如“此方法与 BERT 的比较?”。

扩展而言,可集成多模态支持,处理论文中的图表 via CLIP 嵌入,或结合知识图谱增强实体链接。总体上,这种 RAG 架构为 ArXiv 论文 QA 提供了高效、可扩展的解决方案,推动学术效率提升。

(字数:1028)