互联网正在被 AI 生成内容淹没。当你搜索一个技术问题时,搜索结果前列可能充斥着「AI 内容农场」—— 这些网站用大模型批量生产毫无价值的文章,仅为赚取广告费和 SEO 流量。这类内容不仅浪费用户时间,还可能传播错误信息甚至危险建议。alvi-se 维护的 AI uBlock Blacklist 项目提供了一种实用的解决方案,通过手动 curated 的过滤规则屏蔽这些 AI 内容农场。
问题本质:AI 内容农场的危害
传统广告拦截针对的是视觉广告和追踪器,而 AI 内容农场是另一类污染源。这些网站的典型特征包括:内容由大模型批量生成、缺乏人工审核、充斥着推荐链接和广告、SEO 优化到搜索结果前列。更为关键的是,AI 可能会产生幻觉,写出危险内容 —— 比如教你混合漂白粉和氨水,或者执行 rm -rf / 这样的破坏性命令。由于没有编辑审核,这类错误信息可能被大规模传播。
这些网站的经济模式简单粗暴:通过 SEO 获得流量,赚取广告收入和联盟佣金。它们对用户毫无价值,却正在劣化整个互联网的信息质量。
解决方案:AI uBlock Blacklist 项目
GitHub 项目 alvi-se/ai-ublock-blacklist 是一个针对 uBlock Origin 的个人过滤列表,专门屏蔽 AI 内容农场。与传统广告拦截不同,这个列表的目标不是广告本身,而是生产低质量 AI 内容的网站。
安装参数
在 uBlock Origin 中添加该过滤列表有两种方式。快速安装方式:直接点击订阅链接,uBlock Origin 会自动提示添加该列表。手动添加方式:打开 uBlock Origin 仪表盘,进入「过滤列表」选项卡,找到「自定义」或「导入」区域,添加以下原始文件 URL:https://raw.githubusercontent.com/alvi-se/ai-ublock-blacklist/master/list.txt
添加完成后务必勾选启用,然后点击「立即更新」以获取最新规则。该列表会持续更新,当前已收录多个 AI 内容农场域名。
识别模式:人工判断的核心特征
项目维护者 alvi-se 在实践中总结出了一套识别 AI 内容农场的模式,这些经验对安全研究者和内容审核人员都有参考价值。
过度冗余的引言和结论是最明显的特征之一。AI 倾向于在每个教程文章前添加冗长的背景介绍,例如解释 Flutter 时会先写「在当今快速发展的数字景观中,用户期望应用快速、美丽、一致」。这种表述对具体技术问题毫无必要,正常人类作者通常会假设读者已知悉基础背景。
标题格式偏好也是重要线索。AI 特别喜欢使用「全面指南」「分步指南」「终极指南」等 catchphrase。如果一个博客大量出现这类标题,很可能正在批量生产 AI 内容。
缺乏外部引用和来源是另一个关键指标。人类作者通常会链接到参考资料、官方文档或其他权威来源,而 AI 生成的内容往往是闭门造车。此外,检查文章发布日期也有帮助 ——AI 热潮始于 2022 年 11 月 ChatGPT 发布之后,大量「怀旧」文章出现得很不合理。
推荐链接泛滥是内容农场的商业本质决定的。这类网站通常在文章中嵌入大量联盟链接,甚至在导航栏或页脚放置购物推荐。正常的个人博客很少会如此激进地 monetise。
内容深度不足表现为:标题夸张但内容稀薄,每个小标题下只有几句话,缺乏实际操作细节。AI 擅长生成看起来像文章的东西,但很难提供真正有深度的技术内容。
AI 生成图像和 Logo 也是可识别特征。许多内容农场使用 AI 生成的 - banner 或站标,这些图片通常风格统一但缺乏专业设计感。
相似项目:多层防护策略
如果需要更广泛的覆盖,可以考虑其他类似项目。laylavish 维护的 uBlockOrigin & uBlacklist Huge AI Blocklist 收录超过 1000 个站点,主要针对搜索引擎结果中的 AI 生成图像内容,适合希望清理 Google、Bing、DuckDuckGo 图片搜索结果的用户。Iz-zzzzz 的 Block-AI FilterList 收录约 950 个域名,采取更激进的屏蔽策略。
这些项目可以叠加使用 ——alvi-se 的个人列表相对保守,只屏蔽确认的垃圾农场;Huge AI Blocklist 则更广泛,会隐藏大量 AI 相关搜索结果。用户可以根据自己的容忍度选择合适的组合。
过滤语法参数与工程化要点
在 uBlock Origin 中手动添加规则时,需要了解基础过滤语法。简单的域名屏蔽使用双竖线加域名:||example.com^$doc 这条规则会阻止访问 example.com 的任何文档页面。如果需要屏蔽特定子路径或博客账号,可以使用:||example.com/@slopUser^$doc
对于完整域名屏蔽,只需写:||example.com^
需要注意的是,规则末尾的 $doc 参数表示仅匹配文档类型请求,不影响该域名的其他资源加载。在大多数情况下,建议使用这种更精确的匹配方式以避免误伤。
另外,由于内容农场通常批量注册域名,观察同一运营者的其他站点可以一次性屏蔽整个链条。alvi-se 在项目中提到,许多 SEO 服务商同时运营数十个内容农场,找到源头可以高效扩张屏蔽列表。
局限性与工程权衡
该方案并非完美解决方案,需要了解其局限。首先是手动维护的局限性:规则完全依赖人工添加和审核,不可能覆盖所有新出现的 AI 农场,响应速度取决于维护者的活跃度。其次是语言偏见:由于维护者是意大利用户,列表中对意大利语网站的覆盖更全面,其他语言的农场可能漏网。第三是误判风险:手动规则可能误伤正常站点,尤其是刚开始写作的新博客可能被错误标记。
对于企业或团队使用场景,建议建立内部的 AI 内容农场举报机制,收集员工遇到的污染站点,定期合并到统一的黑名单中。同时可以结合 Google Dorks 进行主动发现 ——AI 用户经常直接复制 LLM 输出而不加修改,导致页面中出现「Sure! Here's an article about」这类固定短语。
总结:构建清洁的信息环境
AI 内容农场正在劣化互联网搜索体验,通过 uBlock Origin 过滤列表是一种直接有效的应对手段。alvi-se 的项目提供了实用的规则集和系统化的识别方法论。对于普通用户,安装上述过滤列表即可获得即时防护;对于安全团队,可以借鉴其识别模式构建更完善的检测体系。关键参数包括:过滤列表 URL、域名级屏蔽语法 $doc 参数、以及叠加多个列表实现多层防护的策略。
参考资料