按显存选模型:4GB / 8GB / 12GB / 16GB / 24GB 推荐方案
更新于 2026-04-01
速查总览
先看结论,再看细节:
• 4GB 显存:只能跑 1-3B 小模型,能力有限但聊胜于无
• 8GB 显存:7-8B Q4 是甜点,日常对话和简单编程够用
• 12GB 显存:14B Q4 流畅运行,能力明显提升
• 16GB 显存:14B Q8 或 32B Q4(MoE 35B 也能跑),进入「好用」区间
• 24GB 显存:32B Q4 流畅 + 14B Q8 无损,本地 AI 的黄金档位
• 32GB+ 显存:70B Q4 可跑,接近顶级闭源模型体验
4GB 显存(GTX 1650 / RTX 3050)
能跑的模型:
• Qwen3-1.7B Q4(1.1 GB)— 简单对话
• DeepSeek-R1-Distill-1.5B Q4(1.0 GB)— 轻量推理
• Phi-4-mini 3.8B Q4(2.3 GB)— 微软小钢炮,推理能力不错
• Gemma 3-1B Q8(1.0 GB)— Google 极轻量模型
实话说,4GB 显存跑 AI 比较勉强。这些小模型能做简单的问答和文本处理,但复杂任务(长文写作、代码生成)的质量有限。如果预算允许,建议升级到 8GB 显存的显卡。
替代方案:用 CPU 推理跑稍大的模型(如 7B Q4),速度会慢很多(约 3-5 tok/s),但能力更强。
8GB 显存(RTX 4060 / 3060 Ti / 3070)
推荐模型:
• Qwen3-8B Q4(5.0 GB)⭐ 首选 — 综合能力强,中文优秀
• Qwen3.5-9B Q4(5.5 GB)— 最新一代,原生多模态
• Llama 3.1-8B Q4(4.9 GB)— 社区生态最丰富
• DeepSeek-R1-Distill-7B Q4(4.7 GB)— 推理能力突出
• GLM-4-9B Q4(5.7 GB)— 中文对话能力好
• Gemma 3-4B Q8(4.4 GB)— 想要更高精度的选择
8GB 是目前性价比最高的起步档位。Q4 量化的 7-8B 模型只占 5GB 左右显存,留有充足余量给 KV Cache。日常对话、写作辅助、简单编程都能胜任。
推理速度参考(RTX 4060,272 GB/s):
• Qwen3-8B Q4:约 50 tok/s,非常流畅
12-16GB 显存(RTX 4070 / 4060 Ti 16G / RX 7800 XT)
推荐模型:
• Qwen3-14B Q4(9.0 GB)⭐ 首选 — 能力跃升,推理和编程明显更强
• DeepSeek-R1-Distill-14B Q4(9.0 GB)— 推理能力出色
• Qwen3.5-35B-A3B MoE Q4(14 GB)— 35B 知识量,仅激活 3B,性能超越上代旗舰
• Qwen3.5-27B Q4(16.5 GB)— 16GB 显存刚好能装
• Gemma 3-27B Q4(16.7 GB)— Google 多模态,16GB 勉强
• Phi-4-14B Q4(9.0 GB)— 微软出品,数学推理强
• Qwen3-8B Q8(8.4 GB)— 想要 8B 无损精度
12-16GB 是「甜点」档位。14B Q4 模型在大多数任务上的表现已经相当不错,复杂推理和代码生成的质量明显优于 7-8B。
特别推荐 Qwen3.5-35B-A3B:这是一个 MoE 模型,总参数 35B 但只激活 3B,Q4 量化只需 14GB 显存,性能却超越了上一代 235B 旗舰。
24GB 显存(RTX 4090 / 3090 / RX 7900 XTX)
推荐模型:
• Qwen3-32B Q4(19.9 GB)⭐ 首选 — 本地最强 Dense 模型之一
• DeepSeek-R1-Distill-32B Q4(19.9 GB)— 强推理 + 32B 知识量
• Qwen3-14B Q8(15.2 GB)— 14B 几乎无损精度
• Mistral-Small-24B Q4(14.6 GB)— 高效 Dense 模型
• Yi-1.5-34B Q4(21.0 GB)— 中英文均衡
• Qwen3.5-27B Q6(21.3 GB)— 高精度多模态
24GB 是本地 AI 的「黄金档位」。32B Q4 模型的综合能力已经非常强,复杂推理、专业编程、长文写作都能高质量完成。
推理速度参考(RTX 4090,1008 GB/s):
• Qwen3-32B Q4:约 46 tok/s,极速
• Qwen3-14B Q8:约 60 tok/s,飞快
32GB+ 显存(RTX 5090 / Apple M4 Pro+ / 多卡)
推荐模型:
• Qwen2.5-72B Q4(44.4 GB)— 需要 48GB+,双卡 24GB 可跑
• Llama 3.3-70B Q4(43.1 GB)— 同上
• Qwen3-Coder-Next 80B MoE Q4(30 GB)— 代码专精,单卡 RTX 5090 可跑
• Qwen3.5-122B MoE Q4(66 GB)— 需要多卡
Apple Silicon 用户的优势:
• M4 Pro(48GB 统一内存):可跑 Qwen2.5-72B Q4
• M4 Max(128GB):可跑 Qwen3-235B MoE Q4
• M4 Ultra(192GB):几乎所有模型都能跑
苹果的统一内存架构让大内存 Mac 成为跑大模型的独特选择,虽然带宽不如高端独显,但胜在显存(内存)容量大。
注意:多卡方案的推理速度会受 PCIe 通信瓶颈影响,实际体验不如同等显存的单卡。