推理速度（tok/s）是什么？多快才算够用？

更新于 2026-04-01 · 预计阅读 2 分钟

知识库阅读进度75%

tok/s 是什么

tok/s（tokens per second）表示模型每秒能生成多少个 token。1 个 token 大约是 1-2 个中文字。所以 20 tok/s 意味着模型每秒能输出大约 15-30 个中文字——比你阅读的速度还快。推理速度直接决定了你和 AI 对话时的体验：速度太慢，你会觉得在等；速度够快，就像在和一个打字飞快的人聊天。

不同速度的体感

• < 3 tok/s：明显卡顿，一个字一个字蹦出来，体验很差 • 3-8 tok/s：能用但不流畅，适合不着急的场景（比如后台批量处理） • 8-20 tok/s：流畅对话，文字连续输出，大多数人觉得舒适 • 20-50 tok/s：很快，几乎感觉不到等待 • 50+ tok/s：极速，适合需要大量生成的场景（翻译、写作）对于交互式对话，8 tok/s 是一个关键分界线——低于这个速度，等待感会比较明显。本站在评估模型时，会估算你的硬件能达到的推理速度，帮你判断体验如何。

什么决定了推理速度

推理速度主要取决于两个因素： 1. 显存带宽（GB/s）：这是最关键的指标。推理过程中，GPU 需要不断从显存读取模型参数，带宽越高，读取越快，推理越快。 2. 模型大小：模型越大，每次推理需要读取的数据越多，速度越慢。简化公式：推理速度 ≈ 显存带宽 ÷ 模型大小举例：RTX 4090（带宽 1008 GB/s）跑 Qwen3-14B Q4（9 GB）速度 ≈ 1008 ÷ (9 × 1.1) ≈ 102 tok/s 同一张卡跑 Qwen3-32B Q4（19.9 GB）：速度 ≈ 1008 ÷ (19.9 × 1.1) ≈ 46 tok/s 所以选择更小的模型或更高量化压缩，都能提升推理速度。

提升推理速度的方法

如果你觉得推理太慢，可以试试： 1. 降低量化精度：Q8 换成 Q4，速度几乎翻倍（模型体积减半） 2. 选更小的模型：14B 换成 8B，速度提升约 1.7 倍 3. 升级显卡：主要看带宽而非算力。RTX 4090（1008 GB/s）比 RTX 4060（272 GB/s）快约 3.7 倍 4. 减少上下文长度：长上下文会拖慢首 token 生成速度注意：多卡并行不一定能提升速度。消费级显卡通过 PCIe 通信，带宽远低于显存带宽，卡间通信的开销可能抵消多卡的收益。多卡的主要价值是增加总显存，让你能跑更大的模型。

你已经看完这篇，下一步看这个

按显存选模型：4GB / 8GB / 12GB / 16GB / 24GB 推荐方案

不同显存能跑什么模型？本文按显存大小给出具体的模型推荐和量化方案，帮你快速找到最适合自己硬件的 AI 模型。

什么是模型量化？Q4、Q8、F16 到底是什么意思？

量化是让大模型跑在消费级硬件上的关键技术。本文用通俗的语言解释量化的原理、不同量化等级的区别，以及如何选择。

返回指南目录查看按显存推荐