用 SSE 承载多模型流式补全：断线续传与超时参数

在构建支持多模型流式输出的 AI 应用时，Server-Sent Events（SSE）已成为事实标准。然而，当后端同时对接多个语言模型、图像生成模型或语音合成模型时，连接的稳定性与资源管理就成为必须严肃对待的工程问题。本文从服务端参数配置、客户端断线续传策略以及监控指标三个层面，提供可落地的工程化建议。

服务端：连接生命周期与资源隔离

SSE 本质上是单向长连接，服务器通过持续推送数据维持通道。在多模型并发场景下，如果不加控制地创建和保持连接，文件描述符和内存资源会迅速耗尽。建议将单个 SSE 连接的最大存活时间设置为 5 至 15 分钟，具体取决于业务场景的交互频率。交互式对话场景可以偏短，文档摘要或批量推理场景则可适当延长。

更关键的是为每个模型分配独立的连接池，并设置 最大并发连接数。以同时支持 GPT-4、Claude 和本地部署的 Mixtral 为例，每个模型的活跃连接数建议不超过 50（假设每台后端服务器 16 核 32 GB 内存）。超过阈值时，新请求应进入队列或返回 503 Service Unavailable，而不是无限制地创建连接。连接建立时应在 HTTP 响应头中显式声明 Content-Type: text/event-stream、Cache-Control: no-cache 以及 Connection: keep-alive，避免中间代理提前关闭通道。

客户端：断线续传与消息可靠性

网络抖动或服务端重启会导致 SSE 连接意外中断。健壮的客户端必须在检测到连接断开后自动尝试重新建立连接，并在必要时从上一个确认的消息位置继续接收数据。具体实现时，建议为每条消息分配递增的序列号，客户端在重连时将最后一次成功处理的序列号发送至服务端，服务端据此跳过已推送的消息并从下一个序号继续推送。

关于重试策略，推荐采用 指数退避 策略：首次重试延迟 1 秒，第二次 2 秒，第三次 4 秒，以此类推，最大延迟不超过 30 秒，总重试次数建议控制在 5 次以内。超过重试次数后，应向用户展示明确的状态提示，而非静默失败。此外，超时参数的配置同样重要：读取超时（read timeout）应设置为 60 秒以上，因为大模型的首次 Token 生成（Time To First Token，TTFT）可能受模型加载和上下文缓存影响而耗时较长；写入超时则可保持默认的 10 秒。

监控与告警：关键指标清单

运营多模型 SSE 服务时，以下指标是必须纳入监控的核心项：连接建立成功率（目标 99.9% 以上）、平均消息延迟（从模型输出到客户端接收的时间差，建议不超过 500 毫秒）、重连频率（过高意味着网络或服务端存在稳定性问题）以及各模型的并发连接数分布。当某个模型的并发连接数持续接近配置上限时，应触发扩容告警；当重连频率在短时间内上升超过基线的 3 倍时，应触发异常告警排查。

同时，建议在服务端记录每次连接的完整生命周期事件，包括创建时间、关闭原因（正常关闭、超时、客户端断开、服务端重启等）以及累计推送的消息数量。这些日志在排查偶发性问题时具有不可替代的价值。

参考资料：MDN Web Docs - Using Server-Sent Events