推理速度(tok/s)是什么?多快才算够用?
更新于 2026-04-01
tok/s 是什么
tok/s(tokens per second)表示模型每秒能生成多少个 token。1 个 token 大约是 1-2 个中文字。
所以 20 tok/s 意味着模型每秒能输出大约 15-30 个中文字——比你阅读的速度还快。
推理速度直接决定了你和 AI 对话时的体验:速度太慢,你会觉得在等;速度够快,就像在和一个打字飞快的人聊天。
不同速度的体感
• < 3 tok/s:明显卡顿,一个字一个字蹦出来,体验很差
• 3-8 tok/s:能用但不流畅,适合不着急的场景(比如后台批量处理)
• 8-20 tok/s:流畅对话,文字连续输出,大多数人觉得舒适
• 20-50 tok/s:很快,几乎感觉不到等待
• 50+ tok/s:极速,适合需要大量生成的场景(翻译、写作)
对于交互式对话,8 tok/s 是一个关键分界线——低于这个速度,等待感会比较明显。本站在评估模型时,会估算你的硬件能达到的推理速度,帮你判断体验如何。
什么决定了推理速度
推理速度主要取决于两个因素:
1. 显存带宽(GB/s):这是最关键的指标。推理过程中,GPU 需要不断从显存读取模型参数,带宽越高,读取越快,推理越快。
2. 模型大小:模型越大,每次推理需要读取的数据越多,速度越慢。
简化公式:推理速度 ≈ 显存带宽 ÷ 模型大小
举例:RTX 4090(带宽 1008 GB/s)跑 Qwen3-14B Q4(9 GB)
速度 ≈ 1008 ÷ (9 × 1.1) ≈ 102 tok/s
同一张卡跑 Qwen3-32B Q4(19.9 GB):
速度 ≈ 1008 ÷ (19.9 × 1.1) ≈ 46 tok/s
所以选择更小的模型或更高量化压缩,都能提升推理速度。
提升推理速度的方法
如果你觉得推理太慢,可以试试:
1. 降低量化精度:Q8 换成 Q4,速度几乎翻倍(模型体积减半)
2. 选更小的模型:14B 换成 8B,速度提升约 1.7 倍
3. 升级显卡:主要看带宽而非算力。RTX 4090(1008 GB/s)比 RTX 4060(272 GB/s)快约 3.7 倍
4. 减少上下文长度:长上下文会拖慢首 token 生成速度
注意:多卡并行不一定能提升速度。消费级显卡通过 PCIe 通信,带宽远低于显存带宽,卡间通信的开销可能抵消多卡的收益。多卡的主要价值是增加总显存,让你能跑更大的模型。