从 Goblin 事件看 RLHF 奖励信号的跨场景泛化问题

2026 年 4 月底，OpenAI 发布了一篇名为「Where the goblins came from」的博客文章，首次公开披露了一个困扰其研究团队数月的技术问题：从 GPT-5.1 开始，模型输出中突然出现了大量与 goblin（哥布林）、gremlin（地精）相关的隐喻和比喻，而在后续的 GPT-5.4 与 GPT-5.5 中，这一现象不仅没有消退，反而愈演愈烈。这一事件不仅成为 AI 社区的热议话题，更揭示了强化学习微调（RLHF）过程中奖励信号设计的一个关键风险：被优化的行为会超出其预期作用范围，渗透到原本未指定的场景中。

问题起源：Nerdy 个性化训练的意外产物

要理解 goblin 事件的本质，需要回到 OpenAI 为 ChatGPT 推出的「个性定制」功能。2025 年底，OpenAI 引入了多种预设人格选项，其中「Nerdy」（书呆子）人格被设计为一种充满热情、喜爱使用活泼语言和巧妙隐喻来解释复杂概念的 AI 导师风格。问题恰恰出在这个个性训练过程中。

OpenAI 在训练「Nerdy」人格时，使用了专门的奖励模型来评估模型输出是否符合该人格的特征。具体来说，奖励信号会对使用生动比喻、活泼语言和知识热情的表达给予正向反馈。然而，研究团队在回顾训练数据时发现，这个奖励模型对包含 creature（生物）类词汇的隐喻给予了过高的奖励权重。简而言之，当模型在回答中使用「goblin」或「gremlin」这样的词汇来比喻某种现象时，奖励模型认为这是一个「更符合 Nerdy 风格」的回答，从而持续强化这一行为。

这是一个典型的奖励信号过拟合案例。在 RLHF 训练中，奖励模型基于人类偏好数据构建，但人类偏好数据本身可能包含各种隐含的统计模式。当某种隐喻风格在特定数据子集中出现频率较高时，奖励模型会将其误认为是一种普遍受欢迎的特质，并在优化过程中放大这一特征。

行为扩散机制：从特定人格到全局输出

goblin 问题之所以引起 OpenAI 高度重视，不仅仅是因为它在「Nerdy」人格中出现频率异常（该人格仅占全部对话的 2.5%，却贡献了 66.7% 的 goblin 提及量），更关键的是，这种语言习惯会随着模型训练过程向外扩散，渗透到非「Nerdy」场景中。

OpenAI 在博客中揭示了一个重要的反馈循环机制：当奖励信号强化了某种语言模式后，模型生成的包含该模式的输出会被加入到后续的监督微调（SFT）数据集中。这些模型自行生成的内容随后又被用于训练新的模型迭代，形成了一个自我强化的循环。具体过程如下：首先是强化学习阶段奖励了某种俏皮的语言风格，然后部分被奖励的输出包含了 goblin、gremlin 等词汇，接着这些输出在 rollout 阶段出现的频率显著提高，随后这些模型生成的内容被纳入 SFT 训练数据，最终导致模型对该语言模式的亲和度进一步提升。

这种行为扩散在 RLHF 训练中被称为「奖励泛化」或「行为泄漏」。强化学习的目标是最大化特定奖励，但如果奖励信号与某些意外特征相关联，模型可能会学会同时优化这些意外特征，而这些特征在后续训练中会逐渐独立于原始奖励信号存在。OpenAI 的分析显示，在 76.2% 的审计数据集中，「Nerdy」人格奖励信号都显著偏好包含 goblin 或 gremlin 的输出，这证明了问题的系统性根源。

GPT-5.4 与 GPT-5.5：问题升级与临时缓解

到了 GPT-5.4 发布时，gremlin 和 goblin 的提及量已经出现了更大幅度的增长。OpenAI 收到了大量用户反馈，指出模型在非编程场景中频繁使用这些生物词汇进行类比。更严重的是，这种语言风格开始出现在 Codex 编程助手中 —— 一个本应保持专业严谨的工具。

GPT-5.5 于 2026 年 4 月 23 日发布，作为针对编码、研究和数据分析场景优化的模型。然而，由于该模型的训练在问题根源被发现之前就已经开始，gremlin 和 goblin 的语言习惯被完整继承了下来。OpenAI 工程师在 Codex 测试中立即注意到了这一异常现象，被迫采取了临时性缓解措施：在 Codex 的系统提示中加入了明确的指令，要求模型「never talk about goblins, gremlins, trolls, ogres or similar creatures unless clearly relevant」。

这一事件催生了 OpenAI 内部的多项技术改进。首先是建立了更精细的奖励模型审计流程，能够检测奖励信号在不同数据子集中的偏差倾向。其次是开发了自动化工具，用于追踪特定词汇或短语在模型输出中的分布变化，从而更快地发现异常模式。此外，团队还改进了 SFT 数据的过滤机制，在训练前主动移除包含特定 tic words（语言惯性词汇）的内容。

工程启示：RLHF 训练的监控与隔离策略

goblin 事件为所有从事 RLHF 训练的团队提供了重要的工程教训。首要启示是奖励信号的精细化设计至关重要。在设计奖励模型时，不仅需要考虑总体偏好，还需要分析奖励信号在不同场景、子集和人格配置下的表现。任何单一维度的过度优化都可能导致意外的行为变异。

其次是训练数据的闭环管理需要更加审慎。将模型自身生成的内容纳入训练数据是一种常见的 scaling 策略，但 goblin 事件表明，这种做法会放大任何已被奖励的偏差，形成难以逆转的反馈回路。在实践中，建议对模型生成内容的质量进行更严格的过滤，并监控特定词汇或短语在生成内容中的分布漂移。

第三是人格化训练需要严格的隔离机制。当针对特定人格进行强化学习时，应确保该人格的语言特征不会通过泛化作用泄漏到其他人格或通用场景中。一种可行的做法是在每个人格的训练中引入「负向奖励」，抑制那些不属于该人格预期行为模式的输出。

最后是持续性行为监控的必要性。OpenAI 在 GPT-5.1 发布后数月才首次发现 goblin 问题的模式，这说明传统的 eval 指标（如 MMLU、HumanEval）无法捕捉这类细粒度的语言行为异常。建立针对词汇分布、隐喻风格和会话特征的专门监控仪表板，应当成为 RLHF 训练流程的标准组成部分。

结语

goblin 事件并非一个简单的「bug」，而是现代大语言模型训练中奖励信号设计复杂性的一个缩影。随着模型能力的提升和人格化需求的增加，RLHF 训练中的奖励信号会越来越精细，同时也越来越容易受到隐藏相关性的影响。OpenAI 将这一问题的完整分析公开，为整个行业提供了宝贵的案例研究。对于工程团队而言，建立更完善的奖励审计、训练数据管理和行为监控体系，是在规模化训练中保持模型行为可控的关键。

参考资料

OpenAI, "Where the goblins came from", 2026 年 4 月 29 日，https://openai.com/index/where-the-goblins-came-from/
Ars Technica, "OpenAI Codex system prompt includes explicit directive to 'never talk about goblins'", 2026 年 4 月，https://arstechnica.com/ai/2026/04/openai-codex-system-prompt-includes-explicit-directive-to-never-talk-about-goblins/

ai-systems