Rust重写Readability：HTML内容提取性能优化实践

Mozilla Readability 库是浏览器阅读模式的核心，用于从网页 HTML 中提取主要内容，去除广告、导航等噪声。其原生 JavaScript 实现虽准确，但解析大型页面时性能瓶颈明显：动态类型检查、垃圾回收暂停导致延迟峰值可达数百毫秒，尤其在移动端或批量处理场景下。

rust-readability 仓库（theiskaa 维护）用 Rust 重写该库，利用静态类型、零拷贝解析和无 GC 运行时，显著优化性能。根据社区基准，原 JS 版解析 1MB HTML 需 150ms，而 Rust 版仅 15ms，提升 10 倍；准确率持平或略高，得益于精确的节点评分算法。[1]

核心优化聚焦 HTML 解析与内容提取逻辑：

高效 HTML 解析：摒弃浏览器 DOM，转用 scraper 或 kuchiki 等 Rust HTML 解析器，支持零拷贝借用（&str 切片），避免内存分配。参数：启用features = ["parallel"]并行解析多线程页面，阈值max_depth=5限制 DOM 遍历深度，防深层嵌套卡顿。
节点评分机制：继承 Readability 的分级打分，但 Rust 实现用 Vec<(f32, Node)> 预分配评分列表。关键公式：score = content_length * 0.1 + link_density_bonus - ad_penalty。其中：
- 内容分数：文本长度 / 总节点数 > 25 字 / 节点，得 + 1.0。
- 链接密度：链接文本占比 <0.2，得 + 0.5；>0.5，罚 - 1.0（广告特征）。
- 广告惩罚：class/id 含 "ad|banner|sponsor"，罚 - 3.0。落地阈值：总分 > 50 为候选主内容；多候选取平均文本密度最高者。
内容提取流水线：预处理去除 script/style（regex 过滤），后处理清理短段落（<80 字符删除）。Rust 优势：unsafe 块下 SIMD 加速文本比较，提取纯文本时用 Cow零拷贝返回。

实际部署参数清单：

缓冲区：page_buf: 1MB 栈分配，防堆逃逸。
超时：解析超时 50ms，回退 JS 版。
准确监控：提取后比对标题相似度 > 0.7（Levenshtein 距离），内容长度 > 原页 20%。
回滚：异常 fallback 原 Readability.js via wasm-bindgen。

监控要点：

指标	阈值	告警
解析延迟	<20ms	P99>100ms
提取率	>95%	召回 < 90%
内存峰值	<5MB	>10MB
准确 F1	>0.92	<0.85

工程实践：在 Web 爬虫或 RSS 生成器集成，结合 rayon 并行处理 1000 页 / 分钟。风险：复杂 SPA 需预渲染 HTML。测试覆盖：CN 英文新闻页、博客、电商。

资料来源： [1] https://github.com/theiskaa/rust-readability [2] https://news.ycombinator.com/item?id=41939992