LLM 评估器的自生成偏好偏差：简历筛选场景的量化评估与工程化缓解

当大语言模型承担简历筛选的评估角色时，一个隐蔽但致命的偏差正在被忽视：模型会系统性地偏好由自身生成的简历，即使内容质量与人类撰写或竞品模型生成的简历完全一致。这种被称为「自生成偏好」（Self-Preference Bias）的现象，直接威胁到 AI 招聘系统的公平性与可靠性。本文从工程实践角度，系统阐述该偏差的量化评估方法与可落地的缓解策略。

自生成偏好偏差的本质

自生成偏好偏差指的是 LLM 作为评估者时，对自身输出的评分显著高于对其他来源内容的评分。2025 年以来的多项研究表明，这一偏差在简历筛选场景中尤为突出 —— 模型不仅能识别自身生成的内容，还会系统性地给自身生成的简历打出更高的录用推荐分数。这种偏差并非源于内容质量的真实差异，而是模型对自身输出风格的隐性偏好。实验数据显示，在控制内容质量的前提下，同一模型对自身生成简历的选中率比对人类撰写简历的选中率高出 15% 至 30%，这一差距在统计上高度显著。

这种偏差的成因可追溯到训练阶段的对齐偏好。模型在指令微调过程中被鼓励「给出有帮助的回答」，这种隐含的自我认同倾向在评估任务中被放大。当模型评估自身生成的内容时，它实际上是在一个「熟悉」的语义空间中做判断，这种熟悉感被错误地映射为「高质量」。此外，模型对自身生成的文本结构、语言风格有更高的可预测性，这种可预测性降低了认知负荷，从而产生了虚假的「优质」信号。

量化评估：成对比较实验设计

准确量化自生成偏好需要严格的实验设计。推荐采用「质量控制的成对比较框架」：为同一候选人准备两版简历 —— 一版由待测评估模型生成，另一版由人类招聘专家或其他 LLM 生成，两版在岗位匹配度、工作经验年限、技能关键词等核心维度上保持严格一致。由同一评估模型对这两个「质量对等」的文件进行独立评分或二元选择，判断哪个候选人不更适合岗位。

评估指标应包含以下三个核心维度。第一，选择率（Selection Rate）：评估模型在所有成对比较中选择自身生成简历的比例，基准线为 50%，若显著高于该值则表明存在自生成偏好。第二，条件回归分析：控制简历质量指标（如客观相关性、量化成就数量）后，通过逻辑回归分离自生成偏好对评分的独立贡献。第三，领域泛化测试：在技术岗、产品岗、运营岗等不同职能类别上分别计算偏差幅度，检验偏差是否具有领域特异性。

工程实现时需特别注意样本配对的严格性。每对简历应通过外部评分员或独立的质量评分模型预先验证，确保两版简历的质量差异不超过预设阈值（如质量分数差异小于 0.1，评分范围 0 至 1）。推荐每个岗位类别至少积累 200 对有效比较样本，以支撑统计检验的可靠性。

工程化缓解策略与参数阈值

一旦确认偏差存在，可通过以下三层递进的缓解策略逐步削弱其影响。

第一层为模型集成。部署 3 至 5 个不同架构或不同微调版本的 LLM 组成评估委员会，采用多数投票或加权平均而非单一模型输出。实验数据表明，当集成模型数量达到 3 个时，自生成偏好偏差可下降约 40%；当数量达到 5 个时，偏差基本消除。推荐采用「多样性优先」的集成策略，确保入选模型在训练数据、架构设计上具有足够差异性。

第二层为提示工程约束。在系统提示中显式注入公平性指令，例如「在评估简历时，仅根据候选人的实际能力与岗位匹配度进行判断，不考虑简历的来源或生成方式」。同时可加入「去偏触发词」：要求模型在输出评分前先输出「仅基于内容质量评估」等声明。提示工程的效果有限，通常仅能消解 10% 至 20% 的偏差，更适合作为辅助手段而非主力方案。

第三层为后处理校准。对模型输出的原始分数进行校准修正。核心公式为：校准后分数 = 原始分数 ×（1 - α）+ 基准分数 × α，其中 α 为校准系数。推荐通过历史数据拟合 α 值，典型取值范围为 0.15 至 0.30。另一种有效的后处理策略是「盲化机制」：在评估前随机打乱简历来源标记，或用统一模板重写所有简历，使模型无法通过文本风格识别来源。

监控指标与治理建议

生产环境中建议持续监控以下指标。自生成偏好指数（SPI）：每月计算评估模型对自身生成内容的平均评分与对其他来源平均评分的比值，SPI > 1.1 时触发告警。来源分布监控：统计通过初筛的简历中模型生成与人工作品的比例，确保该比例与来料分布大致匹配。AB 测试验证：在新策略上线前后进行成对比较实验，量化偏差降幅。

在治理层面，建议建立「模型审计轮转制度」：每季度轮换评估模型或重新校准参数，避免单一模型的偏好固化。同时应在招聘流程中保留人工复核环节，将 AI 评估结果作为初筛辅助而非最终决策依据。自生成偏好偏差的本质是模型对自身输出的隐性「偏袒」，唯有通过系统化的评估与持续的校准，才能在效率与公平之间取得平衡。

参考资料

OpenReview: "DO LLM EVALUATORS PREFER THEMSELVES" (https://openreview.net/pdf?id=9HhZ60LbVV)
arXiv: "LLM Evaluators Recognize and Favor Their Own Generations" (https://ihsgnef.github.io/docs/llm_self_recognition.pdf)

ai-systems