推理速度(tok/s)是什么?多快才算够用?

更新于 2026-04-01

tok/s 是什么

tok/s(tokens per second)表示模型每秒能生成多少个 token。1 个 token 大约是 1-2 个中文字。 所以 20 tok/s 意味着模型每秒能输出大约 15-30 个中文字——比你阅读的速度还快。 推理速度直接决定了你和 AI 对话时的体验:速度太慢,你会觉得在等;速度够快,就像在和一个打字飞快的人聊天。
推理速度体感参考图

不同速度的体感

• < 3 tok/s:明显卡顿,一个字一个字蹦出来,体验很差 • 3-8 tok/s:能用但不流畅,适合不着急的场景(比如后台批量处理) • 8-20 tok/s:流畅对话,文字连续输出,大多数人觉得舒适 • 20-50 tok/s:很快,几乎感觉不到等待 • 50+ tok/s:极速,适合需要大量生成的场景(翻译、写作) 对于交互式对话,8 tok/s 是一个关键分界线——低于这个速度,等待感会比较明显。本站在评估模型时,会估算你的硬件能达到的推理速度,帮你判断体验如何。

什么决定了推理速度

推理速度主要取决于两个因素: 1. 显存带宽(GB/s):这是最关键的指标。推理过程中,GPU 需要不断从显存读取模型参数,带宽越高,读取越快,推理越快。 2. 模型大小:模型越大,每次推理需要读取的数据越多,速度越慢。 简化公式:推理速度 ≈ 显存带宽 ÷ 模型大小 举例:RTX 4090(带宽 1008 GB/s)跑 Qwen3-14B Q4(9 GB) 速度 ≈ 1008 ÷ (9 × 1.1) ≈ 102 tok/s 同一张卡跑 Qwen3-32B Q4(19.9 GB): 速度 ≈ 1008 ÷ (19.9 × 1.1) ≈ 46 tok/s 所以选择更小的模型或更高量化压缩,都能提升推理速度。

提升推理速度的方法

如果你觉得推理太慢,可以试试: 1. 降低量化精度:Q8 换成 Q4,速度几乎翻倍(模型体积减半) 2. 选更小的模型:14B 换成 8B,速度提升约 1.7 倍 3. 升级显卡:主要看带宽而非算力。RTX 4090(1008 GB/s)比 RTX 4060(272 GB/s)快约 3.7 倍 4. 减少上下文长度:长上下文会拖慢首 token 生成速度 注意:多卡并行不一定能提升速度。消费级显卡通过 PCIe 通信,带宽远低于显存带宽,卡间通信的开销可能抵消多卡的收益。多卡的主要价值是增加总显存,让你能跑更大的模型。