首页 › 2025年 › 09月 › 在 GRAPE 中实现 off-policy 评估指标用于安全 RLHF 部署
2025年09月27日 mlops

在 GRAPE 中实现 off-policy 评估指标用于安全 RLHF 部署

通过反事实估计在 GRAPE 中实现 off-policy 评估指标,用于生产 LLM 管道中安全评估策略变化,而无需完整重训。

内容加载中...