Hotdry.
ai-systems

二元RAG奖励模型在幻觉缓解中的应用

将二元检索增强机制集成到奖励模型中,用于LLM生成管道中的精确幻觉检测与缓解,提供工程参数与监控要点。

在大型语言模型(LLM)的生成管道中,幻觉(hallucination)问题一直是制约可靠性的关键瓶颈。传统 RAG(Retrieval-Augmented Generation)通过外部知识检索缓解了部分知识滞后和虚构输出,但生成过程仍可能偏离事实。为此,将二元检索增强机制(binary RAG)集成到奖励模型中,形成 RAG-Reward 框架,能实现精确的幻觉检测与缓解。这种方法利用二元偏好对(preferred vs. non-preferred outputs)训练奖励模型,通过 RLHF(Reinforcement Learning from Human Feedback)优化策略模型,确保生成输出既全面又可靠。

核心观点在于,奖励模型不只是评估生成质量,还能嵌入 RAG 的检索 - 生成协同,量化幻觉风险。证据显示,在 RAG 场景下,标准奖励模型准确率不足 80%,而专用 RAG-Reward 模型可达 83.8%。例如,在 WebGLM 问答任务中,该模型通过 Bradley-Terry 损失函数学习偏好信号,显著降低幻觉发生率。另一个证据来自人类评估,一致性率达 71%,证明 AI 辅助标注的可靠性。该框架定义了四个关键指标:幻觉度(Hallucination,衡量事实偏差)、全面性(Comprehensiveness,评估信息覆盖)、冗余度(Verbosity,控制输出长度)和可溯源性(Attribution,追踪证据来源)。这些指标指导数据集构建,从 WebGLM、Yelp 和 XSum 等数据集生成 35K 偏好对,使用 GPT-4o 作为评判者进行多轮标注。

实施时,可落地参数包括:基础模型选用 Llama-3.1-8B-Instruct,学习率 2e-6,全局批量 64,最大序列长 4096,训练 1 epoch。奖励模型训练采用 RAFT 算法,N=16 候选响应,选择最高奖励输出进行策略微调,学习率 5e-6。监控要点:实时计算奖励分数阈值(>0.5 为可靠),集成到生成管道中,若分数低于阈值则触发重检索。回滚策略:若 RLHF 后胜率 < 60%,回退至 SFT 基线。清单如下:

  1. 数据准备:从现有 RAG 数据集采样提示,使用 12 个 LLM 生成多样响应,形成偏好对。
  2. 标注管道:GPT-4o 比较响应,按四指标多数投票选优,确保一致性 > 90%。
  3. 奖励训练:Bradley-Terry 模型,输入格式为 “查询 + 检索上下文 + 响应 A/B”,输出偏好概率。
  4. RLHF 优化:PPO 或 RAFT,KL 散度正则化防止过度偏离,监控幻觉指标下降。
  5. 部署参数:阈值 0.8(低幻觉),Top-K 检索 k=5,嵌入模型 BERT-large。
  6. 评估:自动基准(RAG-Truth)和人类抽样(100 样本),追踪胜率提升。

这种集成不仅减少了幻觉,还提升了生成效率,适用于知识密集型应用如医疗问答。实际部署中,计算成本低(单 epoch 训练),但需警惕标注偏差,通过多样 LLM 生成缓解。

资料来源:arXiv:2501.13264 (RAG-Reward: Optimizing RAG with Reward Modeling and RLHF);HuggingFace 数据集 HanningZhang/RAG-Reward-Modeling。

查看归档