AI 模型知识库

按“先能跑，再跑快，再看质量”的顺序读，最省时间。

快速决策入口：先看按显存选模型 →

入门必读

先建立基础概念：模型是什么、量化是什么。

什么是大语言模型（LLM）？从 ChatGPT 到本地部署

大语言模型是当下 AI 的核心技术。本文用最通俗的语言解释 LLM 是什么、怎么工作、开源和闭源的区别，以及为什么你可以在自己电脑上跑。

适合谁：第一次接触本地大模型的用户

LLM大语言模型ChatGPT更新于 2026-04-01

什么是 GGUF？AI 模型量化格式入门指南

GGUF 是目前最流行的本地 AI 模型格式。本文介绍 GGUF 的由来、结构、优势，以及如何选择合适的量化版本。

适合谁：刚开始接触 Q4/Q8/F16 的用户

GGUF量化格式llama.cpp更新于 2025-07-01

先看入门基础 →

硬件决策

先能跑，再跑快，最后调质量。

按显存选模型：4GB / 8GB / 12GB / 16GB / 24GB 推荐方案

不同显存能跑什么模型？本文按显存大小给出具体的模型推荐和量化方案，帮你快速找到最适合自己硬件的 AI 模型。

适合谁：想快速按显存选模型的用户

显存模型推荐4GB更新于 2026-04-19

推理速度（tok/s）是什么？多快才算够用？

tok/s 是衡量 AI 模型运行速度的核心指标。本文解释推理速度的含义、影响因素，以及不同速度下的实际体验。

适合谁：在意实际对话流畅度的用户

推理速度tok/stokens per second更新于 2026-04-01

2026 年跑 AI 大模型，真正能打的 10 张卡

从 B200 到 L40S，综合显存、带宽、算力和价格，盘点 2026 年上半年最强的 10 张 AI 专业显卡。纯数据、无充值。

适合谁：想了解 2026 年最强 AI 专业显卡的用户

显卡排名AI显卡GPU更新于 2026-05-05

我先看硬件决策 →

进阶理解

进一步理解架构差异与上下文开销。

什么是 MoE（混合专家）架构？为什么它能省显存？

MoE 是当前大模型的主流架构之一。本文解释 MoE 的工作原理、为什么 DeepSeek 和 Qwen 都在用它，以及它对本地部署的影响。

适合谁：想理解 MoE 为什么显存占用高的用户

MoE混合专家Mixture of Experts更新于 2025-07-01

上下文长度是什么？128K 和 4K 差别有多大？

上下文长度决定了 AI 模型一次能「看到」多少内容。本文解释上下文的概念、对使用体验的影响，以及它如何额外消耗显存。

适合谁：经常处理长文档/长对话的用户

上下文长度Context LengthKV Cache更新于 2026-04-25

继续看进阶内容 →

全部文章（按更新时间，新→旧）

2026 年跑 AI 大模型，真正能打的 10 张卡

从 B200 到 L40S，综合显存、带宽、算力和价格，盘点 2026 年上半年最强的 10 张 AI 专业显卡。纯数据、无充值。

显卡排名AI显卡GPUB200更新于 2026-05-05

DeepSeek-V4：Pro 和 Flash，外加一点部署上的实话

材料主要来自 Hugging Face 模型卡和技术报告。会交代两条模型各偏重什么、长上下文这次动到了哪里、推理模式和聊天模板怎么接，最后补一段和自家显卡的关系——避免只看参数表。

DeepSeek-V4DeepSeekMoE长上下文更新于 2026-04-26

上下文长度是什么？128K 和 4K 差别有多大？

上下文长度决定了 AI 模型一次能「看到」多少内容。本文解释上下文的概念、对使用体验的影响，以及它如何额外消耗显存。

上下文长度Context LengthKV Cache128K更新于 2026-04-25

按显存选模型：4GB / 8GB / 12GB / 16GB / 24GB 推荐方案

不同显存能跑什么模型？本文按显存大小给出具体的模型推荐和量化方案，帮你快速找到最适合自己硬件的 AI 模型。

显存模型推荐4GB8GB更新于 2026-04-19

什么是大语言模型（LLM）？从 ChatGPT 到本地部署

大语言模型是当下 AI 的核心技术。本文用最通俗的语言解释 LLM 是什么、怎么工作、开源和闭源的区别，以及为什么你可以在自己电脑上跑。

LLM大语言模型ChatGPT开源模型更新于 2026-04-01

推理速度（tok/s）是什么？多快才算够用？

tok/s 是衡量 AI 模型运行速度的核心指标。本文解释推理速度的含义、影响因素，以及不同速度下的实际体验。

推理速度tok/stokens per second推理性能更新于 2026-04-01

什么是模型量化？Q4、Q8、F16 到底是什么意思？

量化是让大模型跑在消费级硬件上的关键技术。本文用通俗的语言解释量化的原理、不同量化等级的区别，以及如何选择。

量化QuantizationQ4_K_MQ8_0更新于 2025-07-01

什么是 MoE（混合专家）架构？为什么它能省显存？

MoE 是当前大模型的主流架构之一。本文解释 MoE 的工作原理、为什么 DeepSeek 和 Qwen 都在用它，以及它对本地部署的影响。

MoE混合专家Mixture of ExpertsDeepSeek更新于 2025-07-01

什么是 GGUF？AI 模型量化格式入门指南

GGUF 是目前最流行的本地 AI 模型格式。本文介绍 GGUF 的由来、结构、优势，以及如何选择合适的量化版本。

GGUF量化格式llama.cpp本地部署更新于 2025-07-01

显存是什么？跑 AI 模型需要多少显存？

显存（VRAM）是决定你能否本地运行 AI 模型的关键因素。本文解释显存的概念、如何计算模型所需显存，以及不同显卡的显存对比。

显存VRAMGPU显卡更新于 2025-07-01

Ollama 入门：最简单的本地 AI 模型运行方式

Ollama 让本地运行 AI 模型变得像安装 App 一样简单。本文介绍 Ollama 的安装、使用和常见问题。

Ollama本地部署AI模型安装教程更新于 2025-07-01

本地部署 vs 云端 API：哪种方式更适合你？

本地跑模型和调用云端 API 各有优劣。本文从成本、隐私、速度、质量等维度对比两种方案，帮你做出选择。

本地部署云端APIAI部署隐私更新于 2025-07-01