2026 年 2 月 20 日,维基百科社区通过投票决定正式封禁 Archive.today(俗称「archive.is」),这一拥有全球最大网页存档量之一的平台。这一决定的导火索并非简单的服务条款争议,而是该平台被发现在其 CAPTCHA 验证页面中嵌入恶意 JavaScript 代码,将访问者的浏览器变成了分布式拒绝服务(DDoS)攻击的参与节点。这一事件不仅暴露了浏览器僵尸网络(Browser Botnet)这一新型攻击范式的威胁,也引发了对网页存档服务完整性验证机制的广泛思考。
攻击机制:从访问者到攻击者的角色转换
Archive.today 的攻击实现堪称精巧。2026 年 1 月,该平台在其 CAPTCHA 验证页面中嵌入了一段 JavaScript 代码,这段代码在用户访问时自动执行,无需用户完成验证码解答,甚至无需用户知悉其存在。代码的核心逻辑是通过定时器(setInterval)每约 300 毫秒向目标网站(gyrovague.com)发送一次 HTTP 请求。更关键的是,每次请求的 URL 参数都经过随机化处理 —— 这意味着服务器无法通过缓存机制吸收任何流量,每一個请求都必须由后端应用逻辑处理。
这种攻击模式的巧妙之处在于其「放大效应」。由于 Archive.today 本身就是一个高流量的存档服务,每天都有大量用户通过维基百科等平台链接访问该站点进行网页存档。每当用户访问 Archive.today 的任意页面(包括触发 CAPTCHA 的存档请求页面)时,其浏览器就自动加入了这场分布式攻击。这意味着攻击者无需自行构建僵尸网络基础设施,只需利用自有平台的高人气即可将大量无辜用户的浏览器转化为攻击工具。从技术分类上看,这是一种典型的浏览器僵尸网络(Browser Botnet)攻击,其命令与控制(C2)机制就嵌入在正常的网页服务中。
从网络流量特征来看,这种攻击与传统的服务器端僵尸网络存在显著差异。由于请求来自真实用户浏览器,使用常见的 User-Agent,IP 地址分散在全球各地(涵盖住宅网、移动网络、企业网络),传统的基于 IP 信誉或请求频率的防御系统很难将其与正常用户流量区分。唯一可识别的是请求的模式特征:高频、规律间隔、带有随机查询参数、缺乏正常的会话行为(如无前序页面浏览记录)。但这些特征在海量正常搜索流量的掩护下极难被自动检测。
防御维度:如何识别与阻断浏览器僵尸网络流量
面对这类新型攻击,传统的 DDoS 防御方案需要引入更多维度。基于行为分析的检测是第一道防线。通过对请求序列进行建模,正常的用户访问遵循特定的导航模式:通常会先访问首页或目录页,再访问具体内容页,页面停留时间符合人类阅读习惯。而浏览器僵尸网络的攻击流量表现为单一端点的高频重复访问,缺乏导航链,且请求间隔高度规律(与 setInterval 的定时精度一致)。引入会话级别的行为分析,标记那些在极短时间内对同一端点发起大量请求的客户端,可以有效识别这类异常。
速率限制与挑战机制是第二道防线。在应用层实现精细化的速率限制,针对特定端点(如搜索功能)设置合理的请求阈值,超过阈值的请求触发验证码或临时阻断。同时,针对带有高度随机化查询参数的请求(熵值异常高),可以视为机器流量进行挑战验证。但需要权衡的是,这种方式可能误伤正常的搜索爬虫或 API 调用。
WAF 与流量清洗是第三道防线。Web 应用防火墙可以部署规则检测高熵查询参数、规律间隔请求等特征,结合机器学习模型识别异常流量模式。对于大规模攻击,流量清洗中心可以将恶意流量从原始流量中分离出来,只将清洗后的合法请求转发给源站。这种方案在应对突发大规模流量时尤为有效,但成本较高,适合作为最后一道防线。
从用户侧来看,浏览器扩展如 uBlock Origin 等广告屏蔽工具在此事件中意外发挥了防御作用 —— 它们内置的过滤规则将 gyrovague.com 列入黑名单,从而阻断了用户浏览器参与攻击的请求通道。这提示我们,社区驱动的过滤规则库实际上构建了一层分布式防御网络,能够在恶意代码广泛传播前实现快速响应。
存档完整性:超越可用性的信任问题
Archive.today 事件中另一个被忽视但同样重要的维度是存档内容的完整性问题。维基百科社区的调查显示,Archive.today 不仅存在技术层面的攻击行为,还被发现修改存档内容以植入自身观点。这意味着用户通过该平台访问的网页快照可能与原始版本存在差异,对于依赖存档进行事实核查的新闻工作者、研究人员和维权人士而言,这种行为构成了严重的信息安全隐患。
网页存档的完整性验证涉及多个层面。技术完整性要求能够检测存档文件是否在存储或传输过程中被篡改,这通常通过密码学哈希值(如 SHA-256)实现 —— 每个存档版本在创建时计算并存储哈希值,后续验证时重新计算比对。内容完整性则更为复杂,需要检测存档页面是否被有意修改,包括文本内容的增删改、视觉元素的替换,甚至元数据的伪造。
当前主流的存档服务如 Internet Archive(Wayback Machine)在这方面的实践值得参考。该平台通过对多个独立爬虫节点的捕获结果进行交叉验证,降低单点篡改的可能性;同时提供「时间线视图」展示页面历次快照,支持用户对比不同版本的差异。对于关键页面,引入「社区审核」机制,由志愿者对重要存档进行人工校验。
工程实践:构建可靠的网页存档生态
基于上述分析,我们可以提炼出若干工程实践建议。
对于存档服务运营方,首要原则是「不伤害」—— 确保服务本身不沦为攻击工具或信息污染源。具体措施包括:对所有第三方脚本实行严格的代码审查和沙箱执行;建立透明的内容修改日志,任何对存档的人为干预都应可追溯;在服务条款中明确禁止将用户浏览器用于非预期目的。
对于依赖存档服务的平台(如维基百科),需要建立多层次的存档源评估机制。技术可用性只是最低标准,还应考虑服务提供商的运营信誉、历史行为记录、以及是否存在利益冲突。引入自动化监控,当发现存档源出现异常行为(如突然改变重定向策略、内容被篡改)时自动触发告警并暂停调用。
对于安全运营团队,针对浏览器僵尸网络这类新型威胁,需要升级检测能力。传统的基于流量阈值的告警在此场景下效果有限,应引入基于会话行为的多维度分析;建立「正常浏览行为基线」,识别那些缺乏人类导航特征的请求模式;与社区安全情报源保持联动,及时获取新出现的恶意脚本特征。
结语
Archive.today 事件标志着互联网安全领域一个新的警示案例。当一个看似中立的工具服务被滥用为攻击基础设施时,其危害会被指数级放大 —— 因为它绑架的是大量善意用户的计算资源。浏览器僵尸网络的出现提醒我们,分布式威胁不仅来自传统的僵尸服务器集群,更可能隐藏在每一个日常访问的网页中。与此同时,存档内容的完整性危机则揭示了一个更根本的问题:在信息溯源日益重要的时代,我们是否还能信任那些声称保存了「历史快照」的服务?
构建可靠的网页存档生态,需要技术手段与治理机制的双重保障。加密签名、交叉验证、社区审计是技术层面的可行路径;而服务提供商的透明运营、独立第三方的持续监督,则是治理层面的必要制衡。唯有两相结合,才能让网页存档真正成为数字时代的记忆容器,而非下一个攻击的跳板。
参考资料
- Wikipedia:Archive.today DDoS attacks — https://en.wikipedia.org/wiki/Wikipedia:Archive.today_DDoS_attacks
- Ars Technica: Wikipedia bans Archive.today — https://arstechnica.com/tech-policy/2026/02/wikipedia-bans-archive-today-after-site-executed-ddos-and-altered-web-captures/