Hotdry.

Article

解构 tokens/s 的工程误导性:首Token延迟与流式真实体验的评估模型

揭示单一吞吐量指标的语义陷阱,建立TTFT、TPOT/E2E多维评估框架,为交互式LLM应用提供可落地的性能监控参数与SLO设计指南。

2026-05-20ai-systems

在 LLM 推理性能的公开讨论中,"N tokens/s" 几乎成了衡量系统能力的默认标尺。从模型发布到云服务选型,这个数字被反复引用、比较和优化。然而,这一指标在工程实践中存在显著的误导性 —— 它测量的是系统吞吐量,而非用户实际感知的响应质量。当一个系统报告 "100 tokens/s" 时,它可能意味着用户需要等待数秒才能看到第一个字符,随后以流畅的流式输出完成响应;也可能意味着首 token 在 100 毫秒内出现,但后续输出断断续续、体验割裂。这两种场景在 "tokens/s" 数值上可能完全相同,却带来截然不同的用户体验。

吞吐量与延迟的本质混淆

计算机系统性能评估中,吞吐量(Throughput)与延迟(Latency)是两个互补但截然不同的维度。吞吐量衡量单位时间内处理的工作量,而延迟衡量单个请求从提交到完成的总耗时。在传统的批处理系统中,二者通常呈现正向关联:处理速度越快,单位时间完成的请求越多。然而,LLM 推理的特殊性打破了这种简单的对应关系。

LLM 推理包含两个计算特征迥异的阶段:Prefill(提示处理)和 Decode(token 生成)。Prefill 阶段需要对整个输入提示进行前向传播,构建 KV 缓存;Decode 阶段则利用缓存逐个生成输出 token。在批处理(Batching)优化中,系统可以将多个请求合并处理以提高 GPU 利用率 —— 这能显著提升整体吞吐量,但会导致每个请求的 Prefill 阶段被延迟,从而增加首 token 等待时间。

这正是 "tokens/s" 指标的盲区:一个系统可以通过激进的批处理策略达到极高的吞吐量数字,却让每个用户承受漫长的初始等待。正如 SambaNova 工程师在 LanceDB 的技术文章中所指出的,当一项指标成为优化目标时,它往往会失去作为衡量标准的有效性。

关键指标的语义澄清

要建立真正反映用户体验的评估模型,需要区分以下核心指标:

Time to First Token (TTFT):从请求提交到首个输出 token 生成的时间。它涵盖了网络传输、请求排队、Prefill 计算等全过程,是用户感知 "系统是否响应" 的直接信号。在聊天机器人、代码补全等交互式场景中,TTFT 往往比后续生成速度更能决定体验优劣。

Time Per Output Token (TPOT) / Inter-Token Latency (ITL):首 token 之后,相邻 token 之间的平均生成间隔。这一指标决定了流式输出的 "平滑度"—— 较低的 TPOT 意味着文字以连续、均匀的节奏呈现,而高 TPOT 则导致输出卡顿、跳跃。在 vLLM 等推理引擎中,TPOT 通常按请求平均计算,而 ITL 按 token 加权平均,二者在数学上相关但权重逻辑不同。

End-to-End Latency (E2EL):从请求提交到完整响应接收的总时间。它等于 TTFT 加上所有后续 token 的生成时间,反映完成单次交互的绝对等待成本。

Tokens Per Second (TPS):系统级吞吐量指标,衡量单位时间内生成的总 token 数。它可分为 Input TPS(输入处理速度)和 Output TPS(输出生成速度),分别对应不同的瓶颈分析场景。

场景化的指标权重

不同应用场景对这些指标的敏感度存在显著差异,这要求我们在评估时采用差异化的权重配置:

交互式对话系统(如客服机器人、AI 助手):TTFT 应作为首要优化目标。研究表明,当首 token 延迟超过 500 毫秒时,用户开始感知明显的 "迟钝感";而代码补全等高频交互场景甚至要求 TTFT 低于 100 毫秒。TPOT 则需要保持在人类阅读速度之上(通常对应每秒 10-20 个 token),以确保流式输出的连贯性。

Agent 工作流与 RAG 系统:这类场景的特征是 "长输入、短输出"—— 模型需要处理大量上下文或检索文档,但生成的响应相对简短。此时,Prefill 阶段的计算开销占据主导,TTFT 成为关键瓶颈。即使系统的峰值 TPS 很高,如果首 token 延迟过长,整体工作流效率仍会严重受损。

批量生成任务(如报告撰写、数据标注):当输出需要完整接收后才能进行下游处理时,E2EL 成为核心指标。此时,系统级 TPS 对于容量规划和成本预估具有重要参考价值。

流式长文本生成(如实时字幕、直播翻译):TPOT/ITL 的稳定性比绝对数值更重要。用户可以接受稍慢的生成速度,但难以容忍频繁的停顿和抖动。

建立多维评估框架的工程实践

在实际部署中,建议采用以下策略构建评估体系:

分层 SLO 设计:为不同指标设置分级服务等级目标。例如,TTFT ≤ 200ms(P95)、TPOT ≤ 15ms(平均值)、E2EL ≤ 3s(P99)。通过 Goodput 指标(满足所有 SLO 的请求占比)来衡量真实服务质量,而非单纯追求 TPS 峰值。

百分位监控:平均延迟往往掩盖尾部延迟问题。建议同时监控 P50(典型体验)、P95(接近最差体验)和 P99(极端情况)。当 P99 TTFT 超过阈值时,即使平均表现良好,也意味着部分用户正在经历不可接受的服务质量。

负载关联分析:在高并发场景下,用户级 TPS(User TPS)与系统级 TPS(System TPS)呈现此消彼长的关系。通过压测确定系统的饱和点,明确在何种并发水平下延迟指标开始劣化,为容量规划提供数据支撑。

分阶段优化:针对 Prefill 和 Decode 阶段采用差异化策略。Prefill 阶段可通过张量并行、专家并行等技术加速;Decode 阶段则受限于内存带宽,需要优化 KV 缓存管理和批处理调度。在硬件层面,采用三级存储层次(SRAM-HBM-DRAM)的架构设计可以在 TTFT 和 TPS 之间取得更好平衡。

从单一数字到系统思维

"N tokens/s" 的流行反映了工业界对简洁指标的渴望,但 LLM 推理的复杂性决定了单一数字无法承载全部信息。一个负责任的性能评估应该至少包含 TTFT、TPOT 和 E2EL 三个维度,并根据应用场景调整其相对权重。

更重要的是,性能指标应当与业务目标对齐。对于面向终端用户的交互式应用,"感觉快" 往往比 "实际快" 更重要 —— 这意味着优化 TTFT 和流式平滑度可能比追求更高的吞吐量数字更有价值。而对于后台批处理任务,系统级 TPS 和成本效率则成为首要考量。

在 LLM 基础设施日趋成熟的今天,我们需要从 "比数字大小" 的粗放阶段,进入 "理解指标语义、匹配场景需求" 的精细化运营阶段。只有当我们不再迷信单一的 "tokens/s",转而建立多维度的评估框架时,才能真正构建出让用户满意的 LLM 应用体验。


资料来源

  • Wang M., Li T. "Tokens per Second Is NOT All You Need", LanceDB Blog, 2024.
  • "Key metrics for LLM inference", BentoML LLM Inference Handbook.
  • "Understand LLM latency and throughput metrics", Anyscale Documentation, 2026.

ai-systems

内容声明:本文无广告投放、无付费植入。

如有事实性问题,欢迎发送勘误至 i@hotdrydog.com