在大型语言模型(LLM)的生成管道中,幻觉(hallucination)问题一直是制约可靠性的关键瓶颈。传统RAG(Retrieval-Augmented Generation)通过外部知识检索缓解了部分知识滞后和虚构输出,但生成过程仍可能偏离事实。为此,将二元检索增强机制(binary RAG)集成到奖励模型中,形成RAG-Reward框架,能实现精确的幻觉检测与缓解。这种方法利用二元偏好对(preferred vs. non-preferred outputs)训练奖励模型,通过RLHF(Reinforcement Learning from Human Feedback)优化策略模型,确保生成输出既全面又可靠。
核心观点在于,奖励模型不只是评估生成质量,还能嵌入RAG的检索-生成协同,量化幻觉风险。证据显示,在RAG场景下,标准奖励模型准确率不足80%,而专用RAG-Reward模型可达83.8%。例如,在WebGLM问答任务中,该模型通过Bradley-Terry损失函数学习偏好信号,显著降低幻觉发生率。另一个证据来自人类评估,一致性率达71%,证明AI辅助标注的可靠性。该框架定义了四个关键指标:幻觉度(Hallucination,衡量事实偏差)、全面性(Comprehensiveness,评估信息覆盖)、冗余度(Verbosity,控制输出长度)和可溯源性(Attribution,追踪证据来源)。这些指标指导数据集构建,从WebGLM、Yelp和XSum等数据集生成35K偏好对,使用GPT-4o作为评判者进行多轮标注。
实施时,可落地参数包括:基础模型选用Llama-3.1-8B-Instruct,学习率2e-6,全局批量64,最大序列长4096,训练1 epoch。奖励模型训练采用RAFT算法,N=16候选响应,选择最高奖励输出进行策略微调,学习率5e-6。监控要点:实时计算奖励分数阈值(>0.5为可靠),集成到生成管道中,若分数低于阈值则触发重检索。回滚策略:若RLHF后胜率<60%,回退至SFT基线。清单如下:
- 数据准备:从现有RAG数据集采样提示,使用12个LLM生成多样响应,形成偏好对。
- 标注管道:GPT-4o比较响应,按四指标多数投票选优,确保一致性>90%。
- 奖励训练:Bradley-Terry模型,输入格式为“查询+检索上下文+响应A/B”,输出偏好概率。
- RLHF优化:PPO或RAFT,KL散度正则化防止过度偏离,监控幻觉指标下降。
- 部署参数:阈值0.8(低幻觉),Top-K检索k=5,嵌入模型BERT-large。
- 评估:自动基准(RAG-Truth)和人类抽样(100样本),追踪胜率提升。
这种集成不仅减少了幻觉,还提升了生成效率,适用于知识密集型应用如医疗问答。实际部署中,计算成本低(单epoch训练),但需警惕标注偏差,通过多样LLM生成缓解。
资料来源:arXiv:2501.13264 (RAG-Reward: Optimizing RAG with Reward Modeling and RLHF);HuggingFace数据集 HanningZhang/RAG-Reward-Modeling。