用 SSE 承载多模型流式补全：断线续传与超时参数

在 2026 年的 AI Agent 开发中，Server-Sent Events（SSE）仍然是实现流式响应的主流方案。与 WebSocket 相比，SSE 的单向传输特性更适合从服务器向客户端推送 token 片段的场景，同时具备更低的实现成本和更好的兼容性。本文聚焦于多模型流式输出的工程挑战，从连接管理、断线续传策略、超时参数配置三个维度给出可落地的技术建议。

SSE 在多模型场景下的核心价值

多模型流式输出意味着同一个请求可能涉及多个 LLM 提供商的串行或并行调用。每个模型的 token 生成速度、响应延迟、错误率都可能存在显著差异。SSE 的价值在于提供一种统一的传输层抽象，让前端可以无感知地消费来自不同模型的流式数据。在实现层面，SSE 使用 HTTP 长连接配合 text/event-stream 格式，服务器端以 data: 帧逐个推送 token，前端通过 EventSource 或 fetch + ReadableStream 进行消费。

这种架构的优势体现在三个方面。首先，SSE 兼容现有反向代理和 API 网关，Apigee 等平台已提供针对 LLM 流量的原生支持。其次，用户能够在第一个 token 生成后立即看到输出，显著降低感知延迟。最后，相比双向通信的 WebSockets，SSE 的实现更简洁，能够支撑数千级别的并发连接。

连接管理的工程化参数

在生产环境中管理 SSE 连接需要关注多个关键参数。连接建立阶段，服务器必须设置 Content-Type: text/event-stream、Cache-Control: no-cache 和 Connection: keep-alive，并在框架层面禁用响应缓冲。以 Node.js 为例，使用 Express 时需要将 response.flushHeaders() 与手动迭代流结合，确保每个 token 都能即时推送到客户端。

连接维持阶段的核心挑战在于避免空闲超时。大多数云负载均衡器或 CDN 会在 60 秒至 120 秒无活动时关闭长连接。推荐的做法是让服务器每 30 秒发送一次空的心跳事件，格式为 :\n\n，这样既能维持连接活跃，又能帮助客户端检测连接是否仍然有效。前端在收到心跳后可以重置重连计数器，若连续多次未收到心跳则触发重连逻辑。

对于多模型场景，还需要考虑连接池的管理。当单个请求需要调用多个模型时，建议为每个模型维护独立的 SSE 连接，避免单一连接失败导致全局回滚。每个连接的元数据中应记录关联的模型标识、请求 ID 和创建时间，以便在监控和调试时进行链路追踪。

断线续传的实现策略

断线续传是流式输出的核心可靠性保障。在网络中断后，客户端需要能够在重新建立连接后从断点继续接收数据，而不是重新开始整个请求。实现这一能力需要服务器端和客户端的协同设计。

服务器端应当在每个 data: 帧中携带增量索引或 token 位置信息。一个推荐的做法是在事件中包含 sequence_id 字段，客户端在重连时通过请求头 Last-Event-ID 将已接收的最新序列号传回服务器。服务器据此跳过已发送的数据，从断点继续推送。标准的 SSE 协议已经支持这一机制，前端在创建 EventSource 时会自动携带上一次接收到的 Last-Event-ID。

对于多模型场景的断线续传，情况更为复杂。如果请求涉及多个模型的串行调用（例如先调用推理模型再调用润色模型），服务器需要在连接恢复时判断当前处于哪个模型的哪个阶段。建议在每个事件的 data 载荷中包含 model_stage 字段，客户端可以根据该字段决定如何处理恢复后的数据。此外，服务器端应当将每个模型的中间状态持久化到 Redis 或数据库中，确保即使服务器重启也能从断点恢复。

客户端的重连策略也需要精细配置。首次重连应当立即执行，以应对瞬时网络波动。若重连失败，改为使用指数退避策略，初始延迟设为 1 秒，最大延迟不超过 30 秒，总重试次数建议控制在 5 次以内。达到最大重试次数后，前端应当向用户展示连接失败的提示，并提供手动重试的选项。

超时参数的系统化配置

超时配置涉及多个层面，需要根据实际业务场景进行调优。连接建立超时建议设置为 10 秒至 15 秒，若在此时间内无法与服务器建立 SSE 连接，客户端应放弃尝试并触发降级逻辑，例如回退到轮询模式或返回完整响应。

单个 token 的推送超时是另一个关键指标。在正常网络条件下，两个连续 data: 帧之间的间隔不应超过模型生成单个 token 的预期时间。对于大多数模型，这个间隔在 50 毫秒至 500 毫秒之间。建议将单个帧的超时阈值设为 5 秒，超过则判定为模型端阻塞，可能需要触发熔断或切换到其他模型实例。

整体请求超时取决于业务对延迟的容忍度。对于交互式对话场景，建议将总超时控制在 60 秒至 90 秒之间；若涉及复杂的 Agent 任务链，可以适当放宽至 180 秒。服务器端在超时时应当发送一个 event: error 事件，携带错误码和可选的重试建议，让客户端能够优雅地处理超时场景。

多模型并行的场景下，还需要为每个模型设置独立的超时控制。推荐使用 Promise.race 的思想，为每个模型的 SSE 连接设置独立的超时计时器，一旦某个模型超时则立即关闭其连接并通知客户端，同时不影响其他模型的正常流式输出。

监控要点与可观测性实践

生产环境的 SSE 运维需要建立完善的监控体系。核心监控指标包括：连接建立成功率（目标 99.9% 以上）、平均 token 推送延迟（从模型生成到客户端接收的时间差）、断线重连频率（过高说明网络或服务存在问题）、以及并发连接数峰值。

对于多模型场景，建议为每个模型单独统计上述指标，这样能够快速定位是哪个模型导致了整体延迟上升或错误率增加。OpenTelemetry 等可观测性工具已经支持 SSE 生命周期的追踪，建议在每个事件的元数据中注入 trace ID，方便在分布式调用链中关联模型推理与网络传输的性能数据。

异常告警的阈值设置也值得注意。连接失败率超过 1% 时应当触发告警；平均 token 延迟超过 2 秒时应当触发告警；单个请求的重连次数超过 3 次时应当记录详细日志供后续分析。这些阈值可以根据实际业务规模进行动态调整。

总结

SSE 仍然是 AI Agent 流式输出最务实的技术选择。通过合理的连接管理参数配置、完善的断线续传机制以及精细的超时控制，可以构建出稳定可靠的多模型流式服务。在实际落地过程中，建议从单模型场景开始验证上述参数，再逐步扩展到多模型并行场景，并通过监控数据持续调优。

资料来源：本文技术细节参考了 Apigee 官方文档关于 Server-Sent Events 的流式传输最佳实践，以及 OneUptime 关于 Go 语言中 SSE 生命周期监控的技术文章。