在部署大语言模型推理服务时,工程团队常被各类性能指标困扰:高吞吐量是否意味着优秀的用户体验?低延迟是否必然伴随低吞吐?本文聚焦三个核心指标 ——首 Token 延迟(TTFT)、每 Token 生成时间(TPOT)与端到端延迟(E2EL),剖析其内在关联与常见陷阱,并建立一套可落地的评估框架。
三指标定义与工程意义
TTFT(Time to First Token) 衡量从请求发起到首个输出 token 返回的时间。它直接决定用户的 "首响感知"—— 当用户按下回车键后,系统是否在可接受时间内给出反馈。对于聊天机器人、代码补全等交互式应用,TTFT 是建立用户信任的第一道门槛。
TPOT(Time Per Output Token) 反映首 token 之后,模型生成后续 token 的平均速度。在流式输出场景下,TPOT 决定用户阅读体验的平滑度。若 TPOT 过高,即使 TTFT 很短,用户也会感到输出 "卡顿"。
E2EL(End-to-End Latency) 是完整的请求处理时间,可拆解为:
E2EL = TTFT + (TPOT × 输出Token数)
这一公式揭示了三者的数学关系:优化端到端延迟需要同时关注 "启动速度" 与 "持续产出速度"。
指标陷阱:平均值与长尾的盲区
许多团队在评估性能时过度依赖平均值,这是最常见的误区。平均 TTFT 可能表现良好,但 P99 TTFT 却可能高达数秒 —— 这意味着 1% 的用户正在经历极差体验。同样,平均 TPOT 无法反映流式输出的抖动问题。
另一个陷阱是将吞吐量(Throughput)与服务质量混为一谈。高吞吐量(Tokens Per Second)可能通过大 batch 实现,但这会显著增加 TTFT。某服务商可能达到 900 TPS,但 TTFT 高达 4.5 秒 —— 这对交互式应用而言是不可接受的。
此外,**Inter-Token Latency(ITL)** 与 TPOT 在单请求场景下数值相等,但在多请求聚合时计算方式不同:ITL 是 token 加权平均,而 TPOT 是请求加权平均。混淆二者会导致性能评估偏差。
Goodput:超越吞吐量的质量指标
为弥补吞吐量指标的不足,业界引入Goodput概念 —— 即满足预设 SLO(Service Level Objective)的请求比例。Goodput 的计算公式为:
Goodput = 满足SLO的请求数 / 总请求数 × 吞吐量
例如,若系统吞吐量为 100 RPS,但只有 60% 的请求满足 TTFT<500ms 且 TPOT<50ms 的 SLO,则实际 Goodput 仅为 60 RPS。
这一指标迫使工程团队直面权衡:单纯追求高吞吐量而牺牲延迟合规率,最终损害的是真实用户体验。
延迟 - 吞吐量权衡的工程框架
TTFT 与吞吐量之间存在结构性权衡。小 batch 可降低 TTFT 但降低 GPU 利用率;大 batch 提升吞吐但增加首 token 等待时间。以下是决策框架:
交互式应用(聊天、代码补全):优先保障 TTFT。建议 SLO:TTFT < 200-500ms,TPOT < 50ms。采用小 batch(1-4)、KV Cache 复用、模型量化等手段。
长文本生成(报告撰写、摘要):可接受较高 TTFT(1-3 秒),但需保障 TPOT 稳定。建议采用动态 batching,根据输入长度调整 batch 大小。
批处理任务(离线分析、数据管道):优先最大化吞吐量与 Goodput。可采用大 batch、Prefill-Decode 分离架构,接受 TTFT 达数秒。
可落地的监控与优化清单
SLO 阈值建议:
- 聊天机器人:TTFT P95 < 500ms,TPOT P95 < 50ms
- 代码补全:TTFT P95 < 200ms,TPOT P95 < 30ms
- 文档生成:TTFT P95 <3000ms,Goodput> 90%
监控维度:
- 分位数延迟:P50、P95、P99 TTFT 与 TPOT
- Goodput 趋势:按 SLO 合规率计算的有效吞吐
- 阶段分解:Prefill 时间 vs Decode 时间占比
- 资源利用率:GPU 显存带宽、计算单元占用率
优化策略优先级:
- Prompt 压缩:减少输入 token 数,直接降低 Prefill 时间
- KV Cache 复用:对多轮对话复用历史缓存
- 动态 Batching:根据负载自动调整 batch 大小
- Prefill-Decode 分离:独立扩展两个阶段,消除资源争抢
- 模型选型:在满足精度要求前提下选用更小模型或 MoE 架构
结语
TTFT、TPOT 与 E2EL 构成了 LLM 推理性能评估的三维坐标系。工程团队应跳出 "吞吐量至上" 的思维定式,建立以 Goodput 为核心的评估体系,结合具体应用场景设定差异化 SLO。唯有在延迟、吞吐量与成本之间找到动态平衡,才能构建真正可扩展且用户友好的推理服务。
参考来源:
- BentoML, "Key Metrics for LLM Inference", 2025
- Clarifai, "TTFT vs Throughput: Which Metric Impacts Users More", 2026
内容声明:本文无广告投放、无付费植入。
如有事实性问题,欢迎发送勘误至 i@hotdrydog.com。