什么是大语言模型（LLM）？从 ChatGPT 到本地部署

更新于 2026-04-01 · 预计阅读 2 分钟

知识库阅读进度50%

大语言模型是什么

大语言模型（Large Language Model，简称 LLM）是一种经过海量文本训练的 AI 程序。你可以把它理解为一个超级「文字接龙」高手——你给它一段话的开头，它能预测接下来最合理的内容。 ChatGPT、通义千问、Kimi 背后都是大语言模型。它们之所以能回答问题、写代码、翻译文章，是因为在训练过程中「读」过了互联网上数万亿字的文本，从中学会了语言的规律和知识。「大」指的是参数量大。参数就是模型内部的数字，可以理解为模型的「记忆单元」。参数越多，模型能记住的知识越多，能力通常也越强。目前主流模型的参数量从几亿（0.5B）到上万亿（1000B+）不等。

开源模型 vs 闭源模型

闭源模型（如 GPT-4o、Claude）只能通过 API 调用，你看不到模型内部，也不能下载到本地。开源模型（如 Qwen、DeepSeek、Llama）把模型权重公开发布，任何人都可以下载、运行、甚至修改。这意味着你可以在自己的电脑上运行这些模型，完全免费，数据不出本机。近两年开源模型进步飞快。以 DeepSeek-R1、Qwen3 为代表的开源模型，在很多任务上已经接近甚至超越了闭源模型。这就是「本地跑 AI」变得可行的根本原因。

模型的「参数量」意味着什么

你会看到模型名字里带数字，比如 Qwen3-8B、Llama 3.1-70B。这里的 B 是 Billion（十亿），表示参数量。简单的对应关系： • 0.5B-3B：能做简单对话和文本处理，适合手机或低配电脑 • 7B-9B：日常对话、写作、简单编程，消费级显卡可跑 • 14B-32B：复杂推理、专业编程、深度分析，需要好一点的显卡 • 70B+：接近顶级闭源模型的能力，需要高端硬件或多卡参数量越大，模型越聪明，但也越吃硬件。这就是为什么「量化」技术很重要——它能在保持大部分能力的同时，大幅降低硬件需求。

为什么要在本地跑模型

三个核心理由： 1. 隐私：你的对话、代码、文档不会发送到任何服务器 2. 免费：硬件买了之后，跑多少次都不花钱 3. 自由：没有内容审查限制，可以自定义模型行为本地跑模型的门槛已经很低了。一张 8GB 显存的显卡（如 RTX 4060，约 2000 元）就能流畅运行 7-8B 参数的模型，日常对话和编程辅助完全够用。本站「能跑吗」就是帮你判断：你的硬件能跑哪些模型，跑起来体验如何。

什么是大语言模型（LLM）？从 ChatGPT 到本地部署

大语言模型是什么

开源模型 vs 闭源模型

模型的「参数量」意味着什么

为什么要在本地跑模型

你已经看完这篇，下一步看这个

什么是 GGUF？AI 模型量化格式入门指南

显存是什么？跑 AI 模型需要多少显存？

什么是 MoE（混合专家）架构？为什么它能省显存？