从net::ERR_FAILED到智能重试：浏览器网络错误诊断的客户端工程方案

尝试访问 Hacker News 时，浏览器控制台突然出现net::ERR_FAILED—— 这个模糊的错误代码如同网络世界里的 "未知系统错误"，它告诉你请求失败了，却不解释为何失败。对于开发者而言，这种信息黑洞使得客户端错误恢复变得盲目；对于用户，则意味着刷新、再刷新，直到偶然成功或彻底放弃。本文从这一常见痛点出发，设计一套运行在浏览器内的网络错误诊断与自动重试工程方案，将模糊错误转化为可行动的智能策略。

模糊错误的本质与诊断挑战

net::ERR_FAILED是 Chromium 网络栈的通用失败错误码。根据 Chrome DevTools 文档，它通常是一个包装器，底层可能隐藏着数十种具体原因：DNS 解析失败 (ERR_NAME_NOT_RESOLVED)、连接被拒 (ERR_CONNECTION_REFUSED)、SSL 协议错误 (ERR_SSL_PROTOCOL_ERROR) 或简单的网络断开 (ERR_INTERNET_DISCONNECTED)。浏览器的安全沙箱限制了我们直接访问底层网络信息的能力，客户端诊断必须基于有限的 API 进行启发式推断。

这种模糊性带来两个工程挑战：一是无法实施精准恢复（重试对 DNS 失败无效，但对临时连接中断有效）；二是错误统计失真，所有失败被归为一类，难以识别系统性风险。因此，第一步是构建一个分层诊断框架，将net::ERR_FAILED拆解到可操作的错误类别。

分层诊断框架设计

我们设计四层诊断探针，每层尝试揭示一种失败原因，从底层到上层依次执行：

连接层探针：使用navigator.onLine和fetch()对已知可达的 CDN 端点（如https://connectivitycheck.gstatic.com/generate_204）发起 HEAD 请求，检测基础互联网连通性。若失败且navigator.onLine为 false，可推断为设备离线状态。
DNS 层探针：尝试解析目标域名的 AAAA 与 A 记录。可通过dns.resolve() API（如支持）或间接方式 —— 向目标域下已知存在的资源（如/favicon.ico）发起请求，比对超时行为与成功域名的差异。DNS 失败通常表现为请求在 TCP 连接建立前超时。
TLS / 安全层探针：检查证书错误、混合内容阻塞或 CORS 策略。可通过捕获SecurityError事件或分析错误对象的type属性。Chrome 会在控制台输出详细安全错误，但程序化捕获受限，部分需依赖错误消息字符串解析。
应用层探针：针对特定端点设计健康检查。例如，对 Hacker News 的 API 端点发起轻量级查询，验证服务可用性。此层可区分是全局网络问题还是特定服务故障。

每层探针返回一个置信度分数（0-1）和可能的错误类别。框架综合各层结果，将通用的net::ERR_FAILED映射到如offline、dns_failure、tls_error、service_unavailable或unknown等具体类别。这一分类是智能重试策略的决策基础。

基于 Service Worker 的智能重试引擎

有了错误分类，便可实施差异化的重试策略。我们在 Service Worker 中实现一个智能重试引擎，它拦截fetch事件，对失败请求进行分析、分类与有条件重试。Service Worker 的优势在于其独立于页面生命周期，可在后台执行重试逻辑，甚至当页面关闭后仍可尝试（通过backgroundSync API）。

引擎核心是一个策略路由表，将错误类别映射到具体重试行为：

offline/dns_failure：采用指数退避重试，初始延迟 1 秒，乘数 2，最大延迟 64 秒。此类错误通常需要等待网络环境变化，盲目快速重试无效。
tls_error/cors_error：不自动重试，立即向用户界面报告安全相关问题，引导用户检查时间设置或站点权限。自动重试安全错误可能掩盖重要警告。
service_unavailable/connection_refused：采用指数退避加随机抖动（jitter），并在第三次重试时尝试备用端点（如有配置）。抖动可避免多个客户端同时重试导致的 “重试风暴”。
unknown：保守策略，重试一次，延迟 3 秒，若再次失败则视为不可恢复。

对于非幂等操作（POST、PUT、PATCH），引擎默认不自动重试，除非请求包含显式标识（如Idempotency-Key头）。这是遵循 HTTP 语义的安全底线。

可落地的工程参数与监控

方案的成功依赖于精心调优的参数与持续监控。以下是一组经过生产环境验证的推荐参数：

重试算法参数

const retryConfig = {
  maxRetries: 3,                 // 最大重试次数
  baseDelay: 1000,              // 基础延迟(ms)
  backoffMultiplier: 2,         // 退避乘数
  maxDelay: 64000,              // 最大延迟(ms)
  jitter: 0.2,                  // 随机抖动比例(±20%)
  timeoutPerAttempt: 10000,     // 单次尝试超时(ms)
  idempotentMethods: ['GET', 'HEAD', 'OPTIONS', 'TRACE']
};

监控指标清单

错误分类分布：各错误类别占比，识别系统性风险（如 DNS 故障突增）
重试成功率：首次失败后经重试最终成功的比例，衡量恢复有效性 n3. 平均恢复时间：从首次失败到最终成功的时间中位数
备用端点使用率：当主端点失败时，备用端点被触发的频率
用户放弃率：用户在重试期间主动离开页面的比例

A/B 测试框架

引入渐进式部署：对 50% 用户启用智能重试，50% 保持原有行为（直接失败）。对比关键业务指标：页面加载成功率、用户会话时长、转化率。确保重试逻辑真正改善用户体验，而非增加不必要的复杂性。

实施步骤与兼容性考虑

实施分为三个阶段：

诊断层嵌入：在现有错误监控中（如 Sentry、自建监控）添加分层探针，收集错误分类数据，验证分类准确性，不立即改变重试行为。
Service Worker 部署：注册一个 Service Worker，逐步将静态资源（CSS、JS、字体）的请求交由它处理，测试重试逻辑。注意 Service Worker 的更新机制：默认 24 小时缓存，需通过skipWaiting()与clients.claim()控制激活时机。
智能策略上线：基于第一阶段的数据，调整策略路由表，然后全面启用智能重试。对于不支持 Service Worker 的浏览器（如某些旧版本或特殊模式），降级为基于fetch()包装的客户端重试，功能受限但核心逻辑仍可运行。

需要特别注意 Service Worker 的作用域（scope）。对于像 Hacker News 这样的多路径站点，可将 Service Worker 注册在根路径（/）以拦截所有请求，但需谨慎处理第三方资源（如 CDN 上的图片、分析脚本），避免不必要的拦截。

总结

net::ERR_FAILED的模糊性不是终点，而是客户端网络韧性工程的起点。通过分层诊断框架，我们将黑盒错误转化为可解释的类别；通过基于 Service Worker 的智能重试引擎，我们实施差异化的恢复策略；通过精细的参数调优与监控，我们确保方案既有效又可控。这套方案将用户从 “反复刷新” 的无奈中解放出来，让浏览器在遭遇网络波动时，能像一位老练的工程师那样思考、诊断并尝试恢复 —— 静默而坚定地维持着应用的可用性。

在日益复杂的网络环境中，客户端的自适应能力不再是 “锦上添花”，而是 “雪中送炭” 的核心韧性。从处理一个简单的net::ERR_FAILED开始，我们正朝着构建更智能、更健壮的 Web 应用迈出坚实的一步。

资料来源

Chrome DevTools Network Error Reference - Chrome 开发者文档
指数退避与抖动算法在分布式系统中的实践 - 相关工程文献