用 uBlock Origin 屏蔽 AI 内容农场：识别模式与实操参数

互联网正在被 AI 生成内容淹没。当你搜索一个技术问题时，搜索结果前列可能充斥着「AI 内容农场」—— 这些网站用大模型批量生产毫无价值的文章，仅为赚取广告费和 SEO 流量。这类内容不仅浪费用户时间，还可能传播错误信息甚至危险建议。alvi-se 维护的 AI uBlock Blacklist 项目提供了一种实用的解决方案，通过手动 curated 的过滤规则屏蔽这些 AI 内容农场。

问题本质：AI 内容农场的危害

传统广告拦截针对的是视觉广告和追踪器，而 AI 内容农场是另一类污染源。这些网站的典型特征包括：内容由大模型批量生成、缺乏人工审核、充斥着推荐链接和广告、SEO 优化到搜索结果前列。更为关键的是，AI 可能会产生幻觉，写出危险内容 —— 比如教你混合漂白粉和氨水，或者执行 rm -rf / 这样的破坏性命令。由于没有编辑审核，这类错误信息可能被大规模传播。

这些网站的经济模式简单粗暴：通过 SEO 获得流量，赚取广告收入和联盟佣金。它们对用户毫无价值，却正在劣化整个互联网的信息质量。

解决方案：AI uBlock Blacklist 项目

GitHub 项目 alvi-se/ai-ublock-blacklist 是一个针对 uBlock Origin 的个人过滤列表，专门屏蔽 AI 内容农场。与传统广告拦截不同，这个列表的目标不是广告本身，而是生产低质量 AI 内容的网站。

安装参数

在 uBlock Origin 中添加该过滤列表有两种方式。快速安装方式：直接点击订阅链接，uBlock Origin 会自动提示添加该列表。手动添加方式：打开 uBlock Origin 仪表盘，进入「过滤列表」选项卡，找到「自定义」或「导入」区域，添加以下原始文件 URL：https://raw.githubusercontent.com/alvi-se/ai-ublock-blacklist/master/list.txt

添加完成后务必勾选启用，然后点击「立即更新」以获取最新规则。该列表会持续更新，当前已收录多个 AI 内容农场域名。

识别模式：人工判断的核心特征

项目维护者 alvi-se 在实践中总结出了一套识别 AI 内容农场的模式，这些经验对安全研究者和内容审核人员都有参考价值。

过度冗余的引言和结论是最明显的特征之一。AI 倾向于在每个教程文章前添加冗长的背景介绍，例如解释 Flutter 时会先写「在当今快速发展的数字景观中，用户期望应用快速、美丽、一致」。这种表述对具体技术问题毫无必要，正常人类作者通常会假设读者已知悉基础背景。

标题格式偏好也是重要线索。AI 特别喜欢使用「全面指南」「分步指南」「终极指南」等 catchphrase。如果一个博客大量出现这类标题，很可能正在批量生产 AI 内容。

缺乏外部引用和来源是另一个关键指标。人类作者通常会链接到参考资料、官方文档或其他权威来源，而 AI 生成的内容往往是闭门造车。此外，检查文章发布日期也有帮助 ——AI 热潮始于 2022 年 11 月 ChatGPT 发布之后，大量「怀旧」文章出现得很不合理。

推荐链接泛滥是内容农场的商业本质决定的。这类网站通常在文章中嵌入大量联盟链接，甚至在导航栏或页脚放置购物推荐。正常的个人博客很少会如此激进地 monetise。

内容深度不足表现为：标题夸张但内容稀薄，每个小标题下只有几句话，缺乏实际操作细节。AI 擅长生成看起来像文章的东西，但很难提供真正有深度的技术内容。

AI 生成图像和 Logo 也是可识别特征。许多内容农场使用 AI 生成的 - banner 或站标，这些图片通常风格统一但缺乏专业设计感。

相似项目：多层防护策略

如果需要更广泛的覆盖，可以考虑其他类似项目。laylavish 维护的 uBlockOrigin & uBlacklist Huge AI Blocklist 收录超过 1000 个站点，主要针对搜索引擎结果中的 AI 生成图像内容，适合希望清理 Google、Bing、DuckDuckGo 图片搜索结果的用户。Iz-zzzzz 的 Block-AI FilterList 收录约 950 个域名，采取更激进的屏蔽策略。

这些项目可以叠加使用 ——alvi-se 的个人列表相对保守，只屏蔽确认的垃圾农场；Huge AI Blocklist 则更广泛，会隐藏大量 AI 相关搜索结果。用户可以根据自己的容忍度选择合适的组合。

过滤语法参数与工程化要点

在 uBlock Origin 中手动添加规则时，需要了解基础过滤语法。简单的域名屏蔽使用双竖线加域名：||example.com^$doc 这条规则会阻止访问 example.com 的任何文档页面。如果需要屏蔽特定子路径或博客账号，可以使用：||example.com/@slopUser^$doc

对于完整域名屏蔽，只需写：||example.com^

需要注意的是，规则末尾的 $doc 参数表示仅匹配文档类型请求，不影响该域名的其他资源加载。在大多数情况下，建议使用这种更精确的匹配方式以避免误伤。

另外，由于内容农场通常批量注册域名，观察同一运营者的其他站点可以一次性屏蔽整个链条。alvi-se 在项目中提到，许多 SEO 服务商同时运营数十个内容农场，找到源头可以高效扩张屏蔽列表。

局限性与工程权衡

该方案并非完美解决方案，需要了解其局限。首先是手动维护的局限性：规则完全依赖人工添加和审核，不可能覆盖所有新出现的 AI 农场，响应速度取决于维护者的活跃度。其次是语言偏见：由于维护者是意大利用户，列表中对意大利语网站的覆盖更全面，其他语言的农场可能漏网。第三是误判风险：手动规则可能误伤正常站点，尤其是刚开始写作的新博客可能被错误标记。

对于企业或团队使用场景，建议建立内部的 AI 内容农场举报机制，收集员工遇到的污染站点，定期合并到统一的黑名单中。同时可以结合 Google Dorks 进行主动发现 ——AI 用户经常直接复制 LLM 输出而不加修改，导致页面中出现「Sure! Here's an article about」这类固定短语。

总结：构建清洁的信息环境

AI 内容农场正在劣化互联网搜索体验，通过 uBlock Origin 过滤列表是一种直接有效的应对手段。alvi-se 的项目提供了实用的规则集和系统化的识别方法论。对于普通用户，安装上述过滤列表即可获得即时防护；对于安全团队，可以借鉴其识别模式构建更完善的检测体系。关键参数包括：过滤列表 URL、域名级屏蔽语法 $doc 参数、以及叠加多个列表实现多层防护的策略。

参考资料