DeepSeek-V4：Pro 和 Flash，外加一点部署上的实话

更新于 2026-04-26 · 预计阅读 2 分钟

知识库阅读进度73%

Pro 和 Flash

Hugging Face 上的 V4 预览，本质上是两条 MoE（混合专家）对话模型。Pro 这一侧总参大约 1.6T，单次前向里真正参与计算的激活量大约 49B；Flash 则是 284B 总参、约 13B 激活，可以理解为同一条路线上的「小一号」。两条在模型卡里都写了大约 100 万 token 的上下文上限。具体权重长什么样、评测怎么设，仍以官方为准，入口在这里：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro 和 V3 放在一起读公开材料，会发现 V4 更常提的是：窗口拉得很长时，算力和显存怎么压住，而不只是参数量再往上堆一档。

示意图：V4-Pro 与 V4-Flash 的总参、激活与标称上下文对比（量级，以官方模型卡为准）

长上下文：数字之外还改了什么

模型卡上的「最长上下文」和「日常能不能又稳又省地用到那么长」，本来就不是一回事。技术报告里，很大一块篇幅给了长序列上的注意力与 KV：把压缩稀疏注意力、强压缩注意力（CSA、HCA）组合起来用，再叠上 mHC、Muon 这类结构和训练上的调整，目的很明确——在百万级上下文这种设定下，把单 token 的开销和缓存体积压下去。预训练官方说是 32T token 往上；后训练则是先在分领域上练扎实，再收拢成一只模型。做法本身并不稀奇，和近几年大模型后训练的大路数相近，差别主要在细节和规模。

示意图：长序列、注意力与 KV 缓存、训练侧优化在长上下文下的关系（非官方架构图）

推理档位，以及接进业务时要注意的一点

Instruct 这边给了几档节奏：Non-think 偏快答；Think High 愿意多花时间换更细的推理；Think Max 则是把推理预算拉满，官方也提醒这个档位最好别把可用上下文留得太紧，至少给到大约 384K token 量级，体验才谈得上完整。至于 DeepSeek-V4-Pro-Max，更多出现在评测稿和宣传口径里；真要写进系统，还是以仓库里能下载到的 Pro、Flash 和对应文档为准。这次没有随模型附上常见的 Jinja Chat Template，而是让你在 encoding 目录里用脚本，把 OpenAI 那种消息格式编成一串输入。老工程若是按模板硬拼 prompt 的，迁过来要单独改一版，这点容易忽略。

示意图：Non-think / Think High / Think Max 三档与 messages 经 encoding 脚本到模型输入的流程

和本地显卡的关系

MoE 的老问题没变：显存往往还是跟着总参走，很难指望「激活只有十几 B，磁盘就也十几 B」。V4-Pro 离消费级单卡很远；Flash 小一大截，但照样不是「笔记本随手一装」的体量，多卡或机房环境才比较现实。本站给 Pro、Flash 标的 Q4、Q2，是按 R1、V3 那代大 MoE 的权重量级估出来的对照数，方便和站内别的模型比一眼，不是官方 GGUF 承诺，也不涵盖所有第三方量化。公开权重主要是 FP8、FP4 混排的 Safetensors，怎么转、怎么跑，看仓库里的 inference 说明最稳妥。若目标就是本机、中等显存上跑起来，R1 的 7B / 14B / 32B 蒸馏版要常见得多；V4 更适合当作「长窗口 + 超大 MoE 现在走到哪」的样本，心里有个谱即可。

示意图：MoE 中「激活算力」与「总参/显存」条带对比，以及消费级与 V4 档位的预期落差

DeepSeek-V4：Pro 和 Flash，外加一点部署上的实话

Pro 和 Flash

长上下文：数字之外还改了什么

推理档位，以及接进业务时要注意的一点

和本地显卡的关系

你已经看完这篇，下一步看这个

什么是 GGUF？AI 模型量化格式入门指南

显存是什么？跑 AI 模型需要多少显存？

什么是 MoE（混合专家）架构？为什么它能省显存？