VERL 中离线 RLHF 数据整理工程：奖励对齐样本选择、质量过滤与偏置缓解

在大型语言模型（LLM）的偏好优化中，离线强化学习从人类反馈（RLHF）依赖于高质量的数据 curation 来确保训练的稳定性和有效性。VERL 作为 ByteDance Seed 团队开源的 RLHF 框架，提供灵活的数据准备管道，支持从原始提示到结构化 Parquet 格式的转换。这种离线 curation 过程的核心在于奖励对齐的样本选择、质量过滤以及偏置缓解，这些步骤直接影响模型的收敛速度和泛化能力。通过工程化这些环节，可以显著降低噪声干扰，实现更可靠的 LLM 偏好对齐。

VERL 的数据 curation 强调模块化设计，首先从 Hugging Face Datasets 或自定义来源加载提示数据，然后应用映射函数（make_map_fn）生成包含 prompt、ability、reward_model 和 extra_info 的结构化样本。例如，在 GSM8K 数据集的处理中，VERL 通过正则表达式提取 ground_truth 作为奖励基准，确保每个样本的 reward_model 字段对齐可验证的解决方案。这种方法避免了主观标注的偏差，提供客观的奖励信号。根据 VERL 文档，数据必须以 Parquet 格式存储，便于分布式加载和分片，支持大规模并行处理。在实际应用中，这种结构化输入直接馈送到 PPO 或 GRPO 等算法中，确保 actor 和 critic 模型在一致的数据分布上训练。

奖励对齐样本选择的观点在于，仅保留与预期奖励分布匹配的样本，能提升梯度估计的低方差性。证据显示，在 RLHF 训练中，随机采样往往导致零梯度问题，尤其是当所有响应奖励相同时。VERL 通过集成奖励模型（如基于 Bradley-Terry 的偏好模型）进行预筛选，选择那些优势值（advantage）大于阈值的样本。例如，在一个典型的 curation 管道中，对每个提示生成 K=16 个响应，使用奖励模型计算平均奖励 r_bar 和标准差 σ_r，然后保留 AGRPO > 0.5 的样本。这不仅对齐了奖励信号，还减少了分布偏移。根据相关调研，类似的自适应采样（如 Reinforce-Ada 框架）可将收敛速度提高 1.4 倍，而 VERL 的 3D-HybridEngine 进一步优化了 resharding，减少内存冗余。

质量过滤是 curation 的关键瓶颈，旨在剔除噪声样本以维持数据纯度。VERL 支持拒绝采样（rejection sampling）作为核心技术：在生成阶段，使用预训练奖励模型对响应打分，仅接受分数高于阈值的样本。证据来自 UltraFeedback 数据集的构建，其中从 17 个模型生成 4 个响应后，通过细粒度评分（帮助性、无害性、连贯性、复杂性）过滤，保留高质量偏好对。这种方法在 VERL 中可通过自定义 reward_function 实现，例如在数学任务中，过滤掉不包含完整推理链的响应。调研显示，PROF 框架的进程一致性过滤（process consistency filtering）能和谐过程奖励和结果奖励，减少奖励黑客行为，提高中间步骤的质量。在 VERL 的实践中，质量阈值通常设为 0.7（基于归一化奖励），结合序列打包（sequence packing）避免长尾噪声，确保数据集的 80% 样本通过过滤。

偏置缓解确保 curation 过程不放大模型固有偏差，维持公平性和鲁棒性。观点是，通过多样性指标和主动过滤，VERL 可以构建代表性强的 offline 数据集。证据表明，RLHF 数据集常受评估者偏差影响，如政治偏见或文化不均衡；VERL 的 extra_info 字段记录 split 和 index，便于后续审计。在 curation 中，应用基于模型的多样化：使用聚类算法（如 K-means）分组样本，强制每个类别的比例均衡；或通过奖励模型重新加权，降低高频偏置样本的权重。例如，在对齐阶段，手动过滤有害内容后，引入合成反馈（如 RLAIF）生成多样响应，缓解人类标注的局限。调研综述指出，数据增强和偏差检测（如在文本、图像模态中）是标准实践；在 VERL 中，这可通过多模态支持（如 Qwen2.5-VL）扩展到视觉语言任务。风险在于过度过滤导致欠拟合，因此建议监控多样性分数（如 entropy > 2.0）。

可落地参数与清单：在 VERL 中实施 curation 时，以下参数推荐用于稳定 LLM 优化：

样本选择阈值：奖励优势 AGRPO > 0.5；生成 K=16-64 个响应 / 提示，预算内自适应停止（e.g., 当 σ_r < 0.1 时）。
质量过滤清单：
1. 预处理：使用 chat_template 格式化 prompt，确保 tokenizer 兼容。
2. 拒绝采样：奖励分数 > 0.7，结合 ground_truth 验证（准确率 > 90%）。
3. 噪声检测：移除长度 <50 token 或重复率> 20% 的样本。
4. 平衡：正 / 负样本比例 1:1，能力类别（math, coding）均匀分布。
偏置缓解参数：
1. 多样性检查：使用 TF-IDF 或 embedding 相似度 < 0.8 过滤相似样本。
2. 偏差审计：集成 fairness 工具（如 AIF360），监控 demographic parity < 0.05。
3. 回滚策略：如果过滤后数据集大小 < 80% 原规模，降低阈值 10% 并重新采样。
4. 监控点：训练中追踪 KL 散度 < 0.1，避免过度对齐；使用 wandb 日志 reward 分布。

这些参数在 VERL 的 FSDP 或 Megatron 后端下易于集成，支持 LoRA 微调节省内存。实际部署中，从小规模验证集开始迭代，目标是提升 AIME 或 HumanEval 分数 5-10%。

总之，VERL 的离线 RLHF 数据 curation 通过工程化选择、过滤和缓解步骤，提供稳定偏好优化的基础。相比纯在线方法，它减少了实时反馈成本，同时保持高吞吐。

资料来源：VERL GitHub (https://github.com/volcengine/verl)，VERL 文档 (https://verl.readthedocs.io/en/latest/preparation/prepare_data.html)；数据选择调研 (A Survey on Data Selection for Language Models)；相关论文如 PROF 框架 (arXiv:2509.03403) 和 Reinforce-Ada (arXiv:2510.04996)。