近日,深度求索在V3.2系列多轮迭代之后,正式推出了新一代DeepSeek-V4系列的预览版本,并延续开放权重的惯例,同步公开了模型参数。这次发布划分了两个规模等级:旗舰版deepseek-v4-pro(总参数量1.6T、激活参数49B)与轻量版deepseek-v4-flash(总参数量284B、激活参数13B),两者均原生支持百万级token的超长上下文。官方对V4系列的核心定位相当清晰——借助混合稀疏注意力架构(CSA + HCA)大幅降低长上下文推理开销,并在Agent能力、世界知识和推理性能上力争国内与开源领域的领先地位。以下针对deepseek-v4-pro展开评测,重点考察其在准确率、响应延迟、token用量及调用成本等方面的表现。

评测接入说明
本次评测中,模型调用通过星链4SAPI这一国产AI聚合平台完成。星链4SAPI是一个集成多厂商大模型接口的统一接入服务,能够让开发者以标准化方式调用不同底座模型,省去适配异构API的重复工作。在测试期间,通过该平台访问deepseek-v4-pro,调用链路稳定,成本与官方定价保持一致,无额外溢价。


1. 整体表现与代际对比

基于约1.5万道测试题的评测结果:

与其前代DeepSeek-V3.2-Think相比,deepseek-v4-pro并非简单全线提升,而是一次有明确侧重的“能力再平衡”。


2. 横向竞争定位

在主流大模型的竞争图谱中,deepseek-v4-pro作为深度求索面向长上下文与Agent场景的新一代旗舰,其地位可从以下维度解读。评测数据侧重中文文本综合能力。

同成本区间对比
在50–80元/千次的成本区间内,deepseek-v4-pro(71.7%,54.3元)处于中坚位置。主要可比模型包括mimo-v2.5-pro(71.4%,64.3元)、Kimi-K2.5-Thinking(70.8%,77.1元)、GLM-5.1(70.7%,73.8元)、GLM-5(69.0%,61.2元)等。V4-Pro总分处于前列,同时单次调用花费具有一定竞争力——比Kimi-K2.5-Thinking低约30%,比GLM-5.1低约26%。
在响应延迟上,V4-Pro平均65秒,明显快于Kimi-K2.5-Thinking(338秒)、GLM-5.1(183秒)等同级推理模型,与mimo-v2.5-pro(56秒)接近。这种响应速度在Agent与代码场景中,对于工程化部署更为友好。
向上看,qwen3.6-max-preview(75.4%,139.2元)、gemini-3.1-pro-preview(75.2%,250.5元)等模型总分略高,但成本结构差异较大;而qwen3.5-plus(73.3%,22.9元)、Doubao-Seed-2.0-pro(72.8%,22.5元)则以更低花费取得更高总分,成本效率相当亮眼。
向下看,deepseek-v4-flash(68.8%,4.9元)、DeepSeek-V3.2-Think(66.9%,7.5元)、qwen3.5-flash(68.9%,10.4元)等提供了较低成本的备选,但在Agent、编码等复杂场景下与V4-Pro存在能力差距。

代际与产品矩阵
自身的代际进步明显:从V3.2-Think的第30位到V4-Pro的第7位。此次升级的核心是Agent、编码、教育、长上下文等方向的补齐,而非全面覆盖。深度求索已形成双子星组合:V4-Pro旗舰与V4-Flash轻量版分别对应高能力与高性价比定位,再加上V3.2-Think、V3.1-Think等前代模型,产品线层次更加分明。
与其他厂商新一代旗舰对位:榜单前十中,qwen3.6-max-preview、gemini-3.1-pro-preview、qwen3.5-plus、kimi-k2.6、Doubao-Seed-2.0-pro、gpt-5.4-high等依次排在V4-Pro之前,彼此分差大多在1–4个百分点之内。

开放权重与闭源的相对位置
在开源阵营中,deepseek-v4-pro的71.7%介于qwen3.5-plus(73.3%)和Qwen3.5-122B-A10B(70.9%)之间,高于Kimi-K2.5-Thinking、GLM-5.1、Qwen3.5-27B、GLM-5等新近发布的开源模型。结合Apex Shortlist 90.2%、SimpleQA-Verified 57.9%等基准,V4-Pro在开放权重模型中具备较强的综合竞争力。
与闭源前沿模型差距在1–4个百分点左右,考虑到V4-Pro的开放权重、百万token原生上下文和Agentic Coding等差异化特性,这一身位对开源生态而言实用价值显著。


3. 关键技术要点

依据官方技术报告,V4系列在架构和训练层面进行了若干重要更新。

混合注意力架构
在DeepSeek-V3基础上,交替使用压缩稀疏注意力(CSA)与重压缩注意力(HCA)。CSA将每m个token的KV缓存压缩为一个项后再叠加稀疏注意力;HCA则进一步激进压缩缓存,两者配合显著降低长序列下的内存与计算负担。

流形约束超连接(mHC)
在常规残差连接外引入流形约束,强化深层网络的训练稳定性。

Muon优化器
采用Muon优化器,以获得更快的收敛速度和更平稳的训练过程。

长上下文效率
在百万token场景下,V4-Pro单token推理FLOPs仅为V3.2的27%,KV cache占用仅10%;V4-Flash进一步压缩至10%和7%。这让百万级上下文从“理论上可行”转变为“实际可部署”。

FP4量化训练
后训练阶段引入MXFP4量化感知训练,主要针对MoE专家权重和CSA索引器的QK路径。由于V4配置下FP4到FP8的反量化为无损转换,可直接复用现有FP8训练基础架构。

后训练范式
采用“专家训练 + 在线策略蒸馏(OPD)”两阶段流程,替代原先的混合RL阶段。先针对数学、代码、Agent、指令遵从等域分别训练专家模型,再通过多教师OPD将能力合并至统一模型,试图在避免传统融合退化的情况下实现高效的多领域能力整合。

三档推理强度
V4-Pro与V4-Flash均支持Non-think、Think High、Think Max三种推理模式,分别对应日常任务、复杂求解和极限推理,Think Max模式在最具挑战性的任务上通过更宽松的长度惩罚获取更高成绩。
官方也坦诚指出,V4-Pro在数学、STEM、HLE等知识与推理基准上仍落后于GPT-5.4、Gemini-3.1-Pro等闭源顶尖模型;当前架构相对复杂,未来需向更精简方向演进;Anticipatory Routing与SwiGLU Clamping等稳定性技巧的底层机制还需深入探索。


4. 官方基准结果概要

在DeepSeek官方发布的评测中,V4-Pro-Max(最大推理强度)与Claude Opus 4.6、GPT-5.4、Gemini-3.1-Pro、Kimi-K2.6、GLM-5.1等模型进行了对比。

总体来看,DeepSeek-V4-Pro用一次有侧重的架构升级,重新平衡了长上下文效率、Agent能力与综合推理表现,并通过开放权重和聚合平台(如星链4SAPI)的便捷接入,为开发者提供了从旗舰到轻量的多层次选择。在成本与能力的权衡中,V4系列尤其适合对长上下文和自主智能体任务有强需求的场景。