Forgejo多层级分布式防御架构：应对AI爬虫的自适应限流策略

引言：AI 爬虫对 Forgejo 的分布式攻击挑战

近年来，随着大型语言模型训练需求的激增，AI 爬虫对开源代码托管平台的攻击呈现出前所未有的规模和复杂性。Forgejo 作为自托管的 Git 服务平台，尤其成为攻击目标。与传统的网络爬虫不同，AI 爬虫采用分布式策略，从整个 IP 段发起攻击，专门针对 HTTP API 遍历每个提交，而非使用高效的git clone命令。

根据 Yann Esposito 在其博客文章中的描述，攻击者会发送数千个请求来查看每个提交，给系统带来巨大压力。更严重的是，这些爬虫不尊重robots.txt协议，持续爬取直到服务器宕机。

现有防御方案的局限性分析

当前最简单的防御方案是在 Nginx 配置中添加 cookie 检查逻辑。当用户首次访问时，返回一个包含 JavaScript 的 418 页面，设置特定 cookie 后重载页面。这种方法对普通用户几乎无感知，但存在明显缺陷：

依赖 JavaScript 执行，可能影响无 JS 环境
容易被专门设计的爬虫绕过
无法应对分布式攻击

2. 传统 IP 限流工具

如 Traefik 内置的限流中间件，在面对分布式攻击时效果有限。Jade Ellis 在其经历中提到，攻击来自整个 / 16 IP 段，传统 IP 限流无法有效应对。

3. 重量级防御系统

Anubis 等工具提供了更复杂的防御机制，但配置复杂、资源消耗大，不适合中小型实例。正如 Codeberg 上issue #7200所反映的，用户需要更轻量、更智能的解决方案。

多层级分布式防御架构设计

架构概览

我们提出一个三层防御架构，结合边缘计算与中心化智能决策：

┌─────────────────────────────────────────────────────────┐
│                   边缘防御层 (Edge Layer)                │
│  ┌─────────┐  ┌─────────┐  ┌─────────┐  ┌─────────┐   │
│  │ 节点A   │  │ 节点B   │  │ 节点C   │  │ 节点D   │   │
│  └─────────┘  └─────────┘  └─────────┘  └─────────┘   │
│       │           │           │           │            │
└───────┼───────────┼───────────┼───────────┼────────────┘
        │           │           │           │
        └───────────┼───────────┼───────────┘
                    │           │
        ┌───────────▼───────────▼───────────┐
        │        协同决策层 (Orchestrator)   │
        │  ┌─────────────────────────────┐  │
        │  │   机器学习模型 & 规则引擎    │  │
        │  └─────────────────────────────┘  │
        └───────────────────────────────────┘
                    │
        ┌───────────▼───────────┐
        │   核心应用层 (Forgejo)  │
        └───────────────────────┘

边缘防御层设计要点

地理位置分布：在全球多个区域部署边缘节点，实现就近防御
轻量级检测：每个节点运行基础行为分析，识别异常模式
实时数据上报：将可疑请求特征上报至协同决策层
本地缓存策略：对已验证的合法请求提供缓存加速

协同决策层核心功能

全局威胁情报聚合：收集所有边缘节点的攻击数据
机器学习模型训练：基于历史数据训练攻击识别模型
自适应规则生成：根据当前攻击模式动态调整防御策略
策略分发机制：将更新后的防御规则推送到边缘节点

基于机器学习的自适应限流策略

特征工程：识别 AI 爬虫的关键指标

请求时序特征
- 请求间隔的统计分布（均值、方差、偏度）
- 时间序列的自相关性分析
- 周期性模式检测
行为模式特征
- 页面访问深度与广度
- API 调用序列分析
- 资源消耗模式（CPU、内存、磁盘 IO）
网络特征
- IP 地址的地理分布密度
- ASN（自治系统号）关联性分析
- TLS 指纹与 User-Agent 模式

自适应限流算法参数

基于 Sudhanshu Prajapati 在自适应限流框架中的理念，我们设计以下参数：

# 自适应限流配置示例
adaptive_rate_limiting:
  # 基础参数
  base_rate: 100  # 请求/秒（初始值）
  min_rate: 10    # 最低允许速率
  max_rate: 1000  # 最高允许速率
  
  # 学习参数
  learning_rate: 0.1      # 模型学习率
  exploration_factor: 0.2 # 探索新策略的概率
  
  # 响应参数
  response_delay_base: 100   # 基础延迟（毫秒）
  response_delay_factor: 2.0 # 延迟倍增因子
  
  # 检测阈值
  anomaly_threshold: 3.0     # 异常分数阈值
  confidence_threshold: 0.8  # 模型置信度阈值

限流策略动态调整机制

渐进式延迟：对疑似爬虫请求逐渐增加响应延迟
- 第一次异常：+100ms
- 第二次异常：×2 倍延迟
- 第三次异常：×4 倍延迟，以此类推

基于信誉的限流：为每个 IP / 会话建立信誉评分

def calculate_reputation_score(ip_address):
    # 基础信誉分
    score = 100
    
    # 减分项
    if has_anomalous_pattern(ip_address):
        score -= 30
    if from_suspicious_asn(ip_address):
        score -= 20
    if high_request_rate(ip_address):
        score -= 25
        
    # 加分项（合法行为）
    if uses_git_protocol(ip_address):
        score += 50
    if has_valid_session(ip_address):
        score += 30
        
    return max(0, min(100, score))

协同防御策略：边缘节点间共享攻击情报
- 当一个节点检测到攻击时，立即通知其他节点
- 建立 IP 信誉共享网络
- 实现全局黑名单 / 灰名单同步

可落地的工程参数与监控要点

部署架构参数

边缘节点配置
- CPU：2-4 核心
- 内存：4-8GB
- 存储：50-100GB SSD
- 带宽：100Mbps 以上
协同决策层配置
- CPU：8-16 核心
- 内存：16-32GB
- 存储：200-500GB SSD
- 数据库：PostgreSQL + Redis 集群

关键监控指标

性能监控
- 请求处理延迟（P50、P95、P99）
- 系统资源利用率（CPU、内存、磁盘 IO）
- 网络带宽使用情况
安全监控
- 异常请求检测率
- 误报率与漏报率
- 攻击模式变化趋势
业务监控
- 合法用户访问成功率
- API 可用性指标
- 用户体验评分

告警阈值设置

alerts:
  # 性能告警
  high_latency:
    threshold: 1000  # 毫秒
    duration: "5m"   # 持续时间
    
  # 安全告警  
  attack_detected:
    requests_per_second: 500
    concurrent_connections: 1000
    
  # 资源告警
  high_cpu_usage:
    threshold: 80    # 百分比
    duration: "10m"
    
  high_memory_usage:
    threshold: 85    # 百分比
    duration: "5m"

回滚与降级策略

自动降级机制
- 当系统压力超过阈值时，自动切换到简化检测模式
- 暂时禁用复杂的机器学习分析
- 使用基于规则的简单限流
手动干预接口
- 提供管理界面手动调整限流参数
- 支持临时白名单 / 黑名单管理
- 系统状态可视化面板
回滚检查点
- 每小时自动创建配置快照
- 保留最近 24 小时的防御策略历史
- 一键回滚到任意历史版本

实施路线图与最佳实践

阶段一：基础防御部署（1-2 周）

部署基础边缘节点
实现简单规则引擎
建立基础监控体系

阶段二：智能增强（3-4 周）

集成机器学习模型
实现自适应限流算法
建立协同防御网络

阶段三：优化完善（5-8 周）

性能调优与压力测试
误报率优化
用户体验改进

最佳实践建议

渐进式部署：先在非关键环境测试，再逐步推广
A/B 测试：对比不同防御策略的效果
持续监控：建立 7×24 小时监控机制
定期演练：模拟攻击场景，测试防御系统响应

总结与展望

面对日益复杂的 AI 爬虫分布式攻击，传统的单点防御方案已显不足。本文提出的多层级分布式防御架构，结合边缘计算协同与机器学习自适应限流，为 Forgejo 实例提供了系统级的防护方案。

关键优势：

分布式防御：应对来自多个 IP 段的协同攻击
智能适应：基于机器学习动态调整防御策略
资源高效：边缘节点分担检测压力，降低中心负载
可扩展性：支持水平扩展，适应不同规模部署

未来发展方向：

联邦学习：在保护隐私的前提下，实现跨实例威胁情报共享
区块链信誉系统：建立去中心化的 IP 信誉网络
量子安全加密：为防御系统通信提供量子安全保护

随着 AI 技术的不断发展，防御系统也需要持续进化。通过构建智能、自适应、分布式的防御体系，我们不仅能够保护当前的 Forgejo 实例，也为未来更复杂的攻击场景做好了准备。

资料来源

Yann Esposito, "How I protect my forgejo instance from AI Web Crawlers", https://her.esy.fun/posts/0031-how-i-protect-my-forgejo-instance-from-ai-web-crawlers/index.html
Forgejo Issue #7200, "feat: Implement rate limiting for the web ui to reduce scraping", https://codeberg.org/forgejo/forgejo/issues/7200
Sudhanshu Prajapati, "From Static to Adaptive: A Framework for Implementing Rate Limits", https://medium.com/fluxninjahq/from-static-to-adaptive-a-framework-for-implementing-rate-limits-fcf63bc8f449
Jade Ellis, "Actually stopping AI scrapers from taking down my server", https://jade.ellis.link/blog/2025/05/18/actually-stopping-forgejo-ai-scraping