跳到主要内容

DeepSeek-V4 全面解读:百万上下文、MoE 架构升级、双模型策略

· 阅读需 7 分钟
一介布衣
全栈开发者

2026 年 4 月 24 日,深度求索发布了全新系列模型 DeepSeek-V4 的预览版,同步上线网页端、App 和 API,并在 HuggingFace 和 ModelScope 开源权重。

这是 DeepSeek 继 V3 之后的又一次大版本迭代。不绕弯子,先说结论:V4 的核心变化不是"更大",而是"更省"——用更少的激活参数和显存,实现了更强的推理和 Agent 能力,同时把百万 token 上下文做成了标配。

两个版本:Pro 和 Flash

V4 系列这次没有走"一个模型打天下"的路线,而是明确分成了两个版本,定位差异很大:

V4-ProV4-Flash
总参数1.6T284B
激活参数49B13B
上下文长度1M tokens1M tokens
精度FP4 + FP8 MixedFP4 + FP8 Mixed
定位追求极致性能追求速度和成本
开源链接HuggingFaceHuggingFace

简单说:Pro 是"顶配",Flash 是"性价比"。 官方说法是 Flash 在推理能力上接近 Pro,但世界知识储备稍弱,Agent 高难度任务上也有差距。对于日常对话、简单代码任务来说,Flash 已经够用,而且因为激活参数只有 13B,推理速度和 API 成本都会明显优于 Pro。

架构升级:不只是 MoE,还有注意力机制

V4 在架构层面做了三件比较重要的事:

1. 混合注意力架构(Hybrid Attention)

这是 V4 最核心的创新。它把 Compressed Sparse Attention(CSA)和 Heavily Compressed Attention(HCA)组合在一起,在 token 维度做压缩。

效果很直接:在 1M token 的上下文场景下,V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%,KV Cache 只有 V3.2 的 10%。 这意味着同样的显存可以处理 10 倍长度的上下文,或者同样的上下文长度下推理速度快好几倍。

这个数据如果属实,对长文本场景(比如代码库分析、长文档理解)来说是实打实的体验提升。以前用长上下文模型最头疼的就是显存爆炸和推理慢,V4 算是正面解决了这个问题。

2. Manifold-Constrained Hyper-Connections(mHC)

这是一个比较底层的技术改进,用来增强传统的残差连接。简单理解就是:模型层数越深,信号在传递过程中越容易失真。mHC 通过在流形空间里做约束,让信号在跨层传播时更稳定,同时不损失模型的表达能力。

这个改动对普通用户来说感知不强,但对训练稳定性和模型上限有实际帮助。

3. Muon 优化器

V4 的训练使用了 Muon 优化器。Muon 是最近比较火的一类优化器,相比传统的 Adam 系列,它在大规模模型训练中的收敛速度和稳定性都有优势。DeepSeek 在 V3 时代就用过不少训练层面的 tricks,这次换优化器也是继续往"训练效率"上抠细节。

训练数据与后训练策略

官方公布的数据:

  • 预训练数据量:超过 32T 高质量 token
  • 后训练策略:两阶段范式
    • 第一阶段:通过 SFT 和基于 GRPO 的强化学习,独立培养各领域的专家能力
    • 第二阶段:通过 on-policy distillation(策略内蒸馏),把不同领域的专业能力整合到一个模型里

这个"先分后合"的后训练思路其实挺有意思。先让模型在不同领域各自专精(比如代码、数学、常识),然后再用蒸馏的方式把它们统一起来。相比一次性端到端训练,这种方式理论上能减少不同任务之间的干扰。

性能表现

推理能力

V4-Pro-Max(Pro 的最大推理强度模式)在数学、STEM、竞赛级代码评测中超越了所有已公开评测的开源模型,成绩接近世界顶级闭源模型。

Agent 能力

这是 V4 相比前代提升最明显的地方。官方明确表示 V4 已作为公司内部员工使用的 Agentic Coding 模型,体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式(但与 Opus 4.6 思考模式仍有差距)。

V4 针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品做了适配优化,在代码任务和文档生成方面都有提升。

世界知识

在世界知识测评中,V4-Pro 大幅领先其他开源模型,仅稍逊于 Gemini-Pro-3.1。

1M 上下文

V4 和 V3.2 的 1M 上下文效率对比:

指标V3.2V4-Pro改善
单 token 推理 FLOPs100%27%73% 减少
KV Cache 占用100%10%90% 减少

1M 上下文现在是所有官方服务的标配——网页端、App、API 全部支持。

API 使用

API 已经同步上线两个模型,调用方式:

  • 兼容 OpenAI ChatCompletions 接口和 Anthropic 接口
  • base_url 不变,model 参数改为 deepseek-v4-prodeepseek-v4-flash
  • 两个模型都支持非思考模式思考模式
  • 思考模式下可通过 reasoning_effort 参数设置思考强度(high / max)
  • 复杂 Agent 场景建议用思考模式 + max 强度

⚠️ 重要通知:旧的 API 模型名 deepseek-chatdeepseek-reasoner 将于 2026 年 7 月 24 日停止使用。当前阶段它们分别指向 deepseek-v4-flash 的非思考模式和思考模式。

开源与部署

V4 系列采用 MIT 许可证开源,这是非常宽松的商业友好许可。

模型下载

模型精度下载
V4-Flash-BaseFP8 MixedHuggingFace | ModelScope
V4-FlashFP4 + FP8 MixedHuggingFace | ModelScope
V4-ProFP4 + FP8 MixedHuggingFace

技术报告:DeepSeek_V4.pdf

本地部署建议

以 V4-Flash 为例(284B 总参数 / 13B 激活):

  • 激活参数只有 13B,理论上单卡高端 GPU(如 A100 80G)配合量化可以跑
  • V4-Pro(1.6T / 49B 激活)需要多卡或者云端推理

不过 1.6T 总参数的 MoE 模型在推理时仍然需要加载全部专家到显存,只是激活其中一部分。所以实际部署 V4-Pro 的门槛不低,更适合用 API 调用。

一些个人看法

V4 最值得关注的不是 benchmark 分数,而是它把百万上下文做成了"免费午餐"。 10% 的 KV Cache 意味着你可以在一个请求里塞进整个代码仓库或者几十篇论文,而不需要担心显存爆炸。这对 Agent 场景和长文档处理是游戏规则级别的变化。

Flash 版本的定位也很聪明。 13B 激活参数让它在速度和成本上有明显优势,适合高频低复杂度的场景。Pro 则负责啃硬骨头。这种"快慢双模"的策略和 Gemini 的思路类似,但 V4 的激活参数差距更大(13B vs 49B),差异化更明显。

Agent 能力是 V4 的重头戏。 官方已经把它作为内部 Agentic Coding 的主力模型使用,体验优于 Sonnet 4.5 这个说法如果属实,那对 Claude Code 用户来说多了一个值得比较的选项。不过 Opus 4.6 思考模式仍然领先,说明在需要深度推理的场景下,V4 还有提升空间。

MIT 许可证意味着你可以自由商用,这对想基于 V4 构建产品的团队来说是个好消息。

参考链接