问题的提出:当 "正确" 成为伪装
geohot 在《The Eternal Sloptember》中提出了一个尖锐的观察:AI agents 生成的代码 "broken, but in a way that's getting harder and harder to detect"—— 表面正确,却以一种越来越难以察觉的方式损坏。他将这种现象称为 "slop"(劣质内容),并预言这将是一个 "golden era for buckets and buckets of slop, and a dark age for gems of quality"。
这一批评不仅适用于代码生成,更指向所有 LLM 输出内容的共同特征:统计模型模仿的是分布,而非过程。当 AI 生成内容在语法、流畅度上达到甚至超越人类水平时,传统的质量代理指标(如语法正确性、词汇复杂度)失效了。我们需要新的检测框架。
Slop 的七维度 Taxonomy 与可测量指标
Northeastern University 与 Meta AI 的研究者在《Measuring AI "Slop" in Text》中通过 19 位领域专家的访谈,构建了 slop 的三层 taxonomy:
信息效用(Information Utility)
- 信息密度:单位长度内的实质内容量。可测量指标:token 熵(基于 GPT-2 surprisal)、命题密度(动词 / 形容词 / 副词 / 介词 / 连词占比)
- 相关性:内容与任务 / 查询的对齐度。当前无可靠自动度量,依赖人工评估
信息质量(Information Quality)
- 事实性:准确性、幻觉、谬误声明。需人工标注或外部知识验证
- 偏见 / 主观性:缺乏必要的主观视角或修辞立场。可测量指标:主观词词典占比(Wiebe et al., 2004)
风格质量(Style Quality)
- 结构:重复性(压缩比 CR)、模板化(Templates-per-Token)
- 连贯性:逻辑流与论证一致性。当前无可靠自动度量
- 语气:过度正式、空洞、缺乏真实视角。当前无可靠自动度量
关键发现:在 7 个显著预测 slop 的维度中,有 3 个(相关性、事实性、连贯性)缺乏可靠的自动度量,这是检测 pipeline 设计的核心挑战。
自动化检测的技术局限
研究测试了多种自动检测方案,结果揭示了当前技术的边界:
LLM-as-Judge 的失败:GPT-5、DeepSeek-V3、o3-mini 在零样本设置下预测二分类 slop 标签时,与人类标注者的 Cohen's κ 接近 0,召回率仅 0.08-0.12。即使提供 5 个示例进行 few-shot 提示,F1 也仅达 0.19。
线性模型的天花板:基于现有自动文本指标(熵、压缩比、可读性指数等)训练的ℓ2 正则化逻辑回归模型,在新闻数据集上 AUPRC 为 0.52(基线 prevalence 0.25),在 QA 数据集上为 0.55(基线 0.27)。模型捕捉到了部分信号,但远不足以作为独立过滤器。
微调模型的部分进展:使用 DeepSeek-R1-Distill-Qwen-7B 在 slop span 提取任务上微调后,字符级精确率 0.33、召回率 0.22、F1 0.26。模型学会了在 44% 的情况下正确弃权(无 slop 预测),但全面检测仍是难题。
这些结果表明:纯自动化 slop 检测在当前技术条件下不可行,必须设计人机协作的分层 pipeline。
分层过滤 Pipeline 设计
基于上述研究,建议采用四层渐进式过滤架构:
第一层:快速预筛(规则 + 轻量模型)
目标:过滤明显低质量内容,减少后续处理量
可落地指标与阈值:
- 信息密度:token 平均熵 > 3.5(高熵 = 低密度)触发标记
- 结构重复:压缩比 CR < 0.6(高重复)触发标记
- 模板化:Templates-per-Token > 0.15 触发人工复核
- 主观性词典占比 < 0.05(过度客观)触发标记
处理逻辑:任一指标触发即进入第二层;全部通过则放行
第二层:语义一致性检查
目标:检测相关性缺失与连贯性问题
技术方案:
- 使用 embedding 模型(如 text-embedding-3-large)计算生成内容与输入 prompt 的语义相似度
- 阈值:余弦相似度 < 0.75 触发人工复核
- 对于长文本,分段计算段间连贯性得分(基于 sentence embedding 的连续性)
局限:此层会产生假阳性,需人工最终裁决
第三层:事实性验证(RAG 增强)
目标:检测幻觉与事实错误
技术方案:
- 提取文本中的实体与声明
- 使用 RAG 检索相关来源进行交叉验证
- 对无法验证的声明标记 "需人工核实"
注意:此层计算成本高,仅对通过前两层的文本执行
第四层:人工质量门
目标:处理机器无法可靠判断的维度(语气、连贯性、深度)
抽样策略:
- 通过前三层的文本按 10% 比例随机抽样人工审核
- 第一层标记的文本 100% 人工复核
- 建立反馈循环:人工判断结果用于持续优化自动指标阈值
可落地的监控参数与清单
运行时监控指标:
- Pipeline 各层通过率(目标:第一层 < 30%,第二层 < 15%,第三层 < 5%)
- 人工复核后确认率(目标:第一层标记确认率 > 70%)
- 端到端 slop 漏检率(通过全部过滤但最终被人工判定为 slop 的比例,目标 < 5%)
质量门检查清单(供人工审核使用):
- 内容是否回答了问题或完成了任务?(相关性)
- 段落之间逻辑是否连贯?(连贯性)
- 是否有具体、可验证的主张?(信息密度)
- 语气是否适合目标受众?(语气)
- 是否存在 "hedging language"(如 "it's important to note that...")的过度使用?
回滚策略:
- 当监控指标偏离目标超过 20% 时,触发阈值重校准流程
- 建立 A/B 测试框架,对比不同阈值组合对最终质量的影响
结论
geohot 的警告与学术研究共同指向一个现实:slop 检测不是单一技术问题,而是需要工程化 pipeline 与人机协作的系统设计挑战。当前技术条件下,自动化指标可以承担 "粗筛" 角色,但最终质量判断仍需人类介入。
关键洞察在于:slop 的本质不是 "错误",而是 "不承诺"—— 文本拒绝提出可证伪的具体主张,用流畅的套话填满空间。检测 pipeline 的设计目标不是替代人类判断,而是将人类注意力集中到真正需要判断的内容上。
随着 AI 生成内容成本的持续下降,slop 的体积将无限扩张。构建有效的过滤机制,是维护信息生态系统质量的必要工程投入。
参考来源:
- geohot, "The Eternal Sloptember", 2026-05-24
- Shaib et al., "Measuring AI 'Slop' in Text", arXiv:2509.19163
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。