DeepSeek-V4:Pro 和 Flash,外加一点部署上的实话

更新于 2026-04-26 · 预计阅读 2 分钟

知识库阅读进度73%

Pro 和 Flash

Hugging Face 上的 V4 预览,本质上是两条 MoE(混合专家)对话模型。Pro 这一侧总参大约 1.6T,单次前向里真正参与计算的激活量大约 49B;Flash 则是 284B 总参、约 13B 激活,可以理解为同一条路线上的「小一号」。 两条在模型卡里都写了大约 100 万 token 的上下文上限。具体权重长什么样、评测怎么设,仍以官方为准,入口在这里:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro 和 V3 放在一起读公开材料,会发现 V4 更常提的是:窗口拉得很长时,算力和显存怎么压住,而不只是参数量再往上堆一档。
示意图:V4-Pro 与 V4-Flash 的总参、激活与标称上下文对比(量级,以官方模型卡为准)

长上下文:数字之外还改了什么

模型卡上的「最长上下文」和「日常能不能又稳又省地用到那么长」,本来就不是一回事。技术报告里,很大一块篇幅给了长序列上的注意力与 KV:把压缩稀疏注意力、强压缩注意力(CSA、HCA)组合起来用,再叠上 mHC、Muon 这类结构和训练上的调整,目的很明确——在百万级上下文这种设定下,把单 token 的开销和缓存体积压下去。 预训练官方说是 32T token 往上;后训练则是先在分领域上练扎实,再收拢成一只模型。做法本身并不稀奇,和近几年大模型后训练的大路数相近,差别主要在细节和规模。
示意图:长序列、注意力与 KV 缓存、训练侧优化在长上下文下的关系(非官方架构图)

推理档位,以及接进业务时要注意的一点

Instruct 这边给了几档节奏:Non-think 偏快答;Think High 愿意多花时间换更细的推理;Think Max 则是把推理预算拉满,官方也提醒这个档位最好别把可用上下文留得太紧,至少给到大约 384K token 量级,体验才谈得上完整。至于 DeepSeek-V4-Pro-Max,更多出现在评测稿和宣传口径里;真要写进系统,还是以仓库里能下载到的 Pro、Flash 和对应文档为准。 这次没有随模型附上常见的 Jinja Chat Template,而是让你在 encoding 目录里用脚本,把 OpenAI 那种消息格式编成一串输入。老工程若是按模板硬拼 prompt 的,迁过来要单独改一版,这点容易忽略。
示意图:Non-think / Think High / Think Max 三档与 messages 经 encoding 脚本到模型输入的流程

和本地显卡的关系

MoE 的老问题没变:显存往往还是跟着总参走,很难指望「激活只有十几 B,磁盘就也十几 B」。V4-Pro 离消费级单卡很远;Flash 小一大截,但照样不是「笔记本随手一装」的体量,多卡或机房环境才比较现实。 本站给 Pro、Flash 标的 Q4、Q2,是按 R1、V3 那代大 MoE 的权重量级估出来的对照数,方便和站内别的模型比一眼,不是官方 GGUF 承诺,也不涵盖所有第三方量化。公开权重主要是 FP8、FP4 混排的 Safetensors,怎么转、怎么跑,看仓库里的 inference 说明最稳妥。 若目标就是本机、中等显存上跑起来,R1 的 7B / 14B / 32B 蒸馏版要常见得多;V4 更适合当作「长窗口 + 超大 MoE 现在走到哪」的样本,心里有个谱即可。
示意图:MoE 中「激活算力」与「总参/显存」条带对比,以及消费级与 V4 档位的预期落差

你已经看完这篇,下一步看这个

返回指南目录查看按显存推荐