DeepSeek-V4-Pro深度评测：Agent与长上下文效率的代际跃升

近日，深度求索在V3.2系列多轮迭代之后，正式推出了新一代DeepSeek-V4系列的预览版本，并延续开放权重的惯例，同步公开了模型参数。这次发布划分了两个规模等级：旗舰版deepseek-v4-pro（总参数量1.6T、激活参数49B）与轻量版deepseek-v4-flash（总参数量284B、激活参数13B），两者均原生支持百万级token的超长上下文。官方对V4系列的核心定位相当清晰——借助混合稀疏注意力架构（CSA + HCA）大幅降低长上下文推理开销，并在Agent能力、世界知识和推理性能上力争国内与开源领域的领先地位。以下针对deepseek-v4-pro展开评测，重点考察其在准确率、响应延迟、token用量及调用成本等方面的表现。

评测接入说明
本次评测中，模型调用通过星链4SAPI这一国产AI聚合平台完成。星链4SAPI是一个集成多厂商大模型接口的统一接入服务，能够让开发者以标准化方式调用不同底座模型，省去适配异构API的重复工作。在测试期间，通过该平台访问deepseek-v4-pro，调用链路稳定，成本与官方定价保持一致，无额外溢价。

1. 整体表现与代际对比

基于约1.5万道测试题的评测结果：

总分（准确率）：71.7%
平均每次调用耗时：65秒
平均每次调用消耗token数：2369
每千次调用的人民币花费（按官方输出价格计算）：54.3元

与其前代DeepSeek-V3.2-Think相比，deepseek-v4-pro并非简单全线提升，而是一次有明确侧重的“能力再平衡”。

综合排名跃升：总分由66.9%增至71.7%，上升4.8个百分点，名次从第30位前进至第7位。
编码能力大幅增强：coding维度从上代的45.6%一举提升至72.2%，涨幅达26.6个百分点，这与官方技术报告所述“Agentic Coding达到当前开源模型最佳水平、内部使用体验优于Sonnet 4.5”的方向高度吻合。
Agent与工具调用进步显著：该项由52.9%升至63.8%，提升10.9个百分点，结合官方公布的Terminal Bench 2.0、SWE Verified、BrowseComp等评测，V4在Agent场景下的系统性优化得以验证。
教育领域知识深化：教育维度从53.9%升至60.6%（+6.7pp），体现世界知识层面的扩展，与SimpleQA、Chinese-SimpleQA等基准的大幅领先相互印证。
医疗与心理保持高位：微调至85.1%，波动在1个百分点内，稳定性突出。
传统强项出现调整：金融（84.1%→81.6%，-2.5%）、法律与行政公务（84.3%→82.0%，-2.3%）小幅回落；语言与指令遵从（74.7%→69.7%，-5.0%）、推理与数学计算（77.6%→71.4%，-6.2%）回调相对明显。
响应速度与token效率改善：平均耗时由144秒缩短至65秒，减少约55%；平均token消耗从2572降至2369（-7.9%）。在引入更复杂的Agent和Coding任务后，单次调用反而更快更精简，这与官方给出的“百万token场景下推理FLOPs仅为V3.2的27%、KV cache仅为10%”的架构效率提升一致。
成本结构变化：输出价格从每百万token 3.0元调整至24.0元，对应每千次调用花费从7.5元升至54.3元，增幅约6倍。对Agent、长上下文、编码等复杂场景，新版本提供了明显更强的基座能力；而在传统中文知识推理任务上，V3.2-Think依然是成本效率比优秀的选项。

2. 横向竞争定位

在主流大模型的竞争图谱中，deepseek-v4-pro作为深度求索面向长上下文与Agent场景的新一代旗舰，其地位可从以下维度解读。评测数据侧重中文文本综合能力。

同成本区间对比
在50–80元/千次的成本区间内，deepseek-v4-pro（71.7%，54.3元）处于中坚位置。主要可比模型包括mimo-v2.5-pro（71.4%，64.3元）、Kimi-K2.5-Thinking（70.8%，77.1元）、GLM-5.1（70.7%，73.8元）、GLM-5（69.0%，61.2元）等。V4-Pro总分处于前列，同时单次调用花费具有一定竞争力——比Kimi-K2.5-Thinking低约30%，比GLM-5.1低约26%。
在响应延迟上，V4-Pro平均65秒，明显快于Kimi-K2.5-Thinking（338秒）、GLM-5.1（183秒）等同级推理模型，与mimo-v2.5-pro（56秒）接近。这种响应速度在Agent与代码场景中，对于工程化部署更为友好。
向上看，qwen3.6-max-preview（75.4%，139.2元）、gemini-3.1-pro-preview（75.2%，250.5元）等模型总分略高，但成本结构差异较大；而qwen3.5-plus（73.3%，22.9元）、Doubao-Seed-2.0-pro（72.8%，22.5元）则以更低花费取得更高总分，成本效率相当亮眼。
向下看，deepseek-v4-flash（68.8%，4.9元）、DeepSeek-V3.2-Think（66.9%，7.5元）、qwen3.5-flash（68.9%，10.4元）等提供了较低成本的备选，但在Agent、编码等复杂场景下与V4-Pro存在能力差距。

代际与产品矩阵
自身的代际进步明显：从V3.2-Think的第30位到V4-Pro的第7位。此次升级的核心是Agent、编码、教育、长上下文等方向的补齐，而非全面覆盖。深度求索已形成双子星组合：V4-Pro旗舰与V4-Flash轻量版分别对应高能力与高性价比定位，再加上V3.2-Think、V3.1-Think等前代模型，产品线层次更加分明。
与其他厂商新一代旗舰对位：榜单前十中，qwen3.6-max-preview、gemini-3.1-pro-preview、qwen3.5-plus、kimi-k2.6、Doubao-Seed-2.0-pro、gpt-5.4-high等依次排在V4-Pro之前，彼此分差大多在1–4个百分点之内。

开放权重与闭源的相对位置
在开源阵营中，deepseek-v4-pro的71.7%介于qwen3.5-plus（73.3%）和Qwen3.5-122B-A10B（70.9%）之间，高于Kimi-K2.5-Thinking、GLM-5.1、Qwen3.5-27B、GLM-5等新近发布的开源模型。结合Apex Shortlist 90.2%、SimpleQA-Verified 57.9%等基准，V4-Pro在开放权重模型中具备较强的综合竞争力。
与闭源前沿模型差距在1–4个百分点左右，考虑到V4-Pro的开放权重、百万token原生上下文和Agentic Coding等差异化特性，这一身位对开源生态而言实用价值显著。

3. 关键技术要点

依据官方技术报告，V4系列在架构和训练层面进行了若干重要更新。

混合注意力架构
在DeepSeek-V3基础上，交替使用压缩稀疏注意力（CSA）与重压缩注意力（HCA）。CSA将每m个token的KV缓存压缩为一个项后再叠加稀疏注意力；HCA则进一步激进压缩缓存，两者配合显著降低长序列下的内存与计算负担。

流形约束超连接（mHC）
在常规残差连接外引入流形约束，强化深层网络的训练稳定性。

Muon优化器
采用Muon优化器，以获得更快的收敛速度和更平稳的训练过程。

长上下文效率
在百万token场景下，V4-Pro单token推理FLOPs仅为V3.2的27%，KV cache占用仅10%；V4-Flash进一步压缩至10%和7%。这让百万级上下文从“理论上可行”转变为“实际可部署”。

FP4量化训练
后训练阶段引入MXFP4量化感知训练，主要针对MoE专家权重和CSA索引器的QK路径。由于V4配置下FP4到FP8的反量化为无损转换，可直接复用现有FP8训练基础架构。

后训练范式
采用“专家训练 + 在线策略蒸馏（OPD）”两阶段流程，替代原先的混合RL阶段。先针对数学、代码、Agent、指令遵从等域分别训练专家模型，再通过多教师OPD将能力合并至统一模型，试图在避免传统融合退化的情况下实现高效的多领域能力整合。

三档推理强度
V4-Pro与V4-Flash均支持Non-think、Think High、Think Max三种推理模式，分别对应日常任务、复杂求解和极限推理，Think Max模式在最具挑战性的任务上通过更宽松的长度惩罚获取更高成绩。
官方也坦诚指出，V4-Pro在数学、STEM、HLE等知识与推理基准上仍落后于GPT-5.4、Gemini-3.1-Pro等闭源顶尖模型；当前架构相对复杂，未来需向更精简方向演进；Anticipatory Routing与SwiGLU Clamping等稳定性技巧的底层机制还需深入探索。

4. 官方基准结果概要

在DeepSeek官方发布的评测中，V4-Pro-Max（最大推理强度）与Claude Opus 4.6、GPT-5.4、Gemini-3.1-Pro、Kimi-K2.6、GLM-5.1等模型进行了对比。

Agent能力：Agentic Coding达到开源模型最佳，内部员工实际使用体验优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式，但与Opus 4.6思考模式尚有距离。
世界知识：SimpleQA-Verified得分57.9，开源模型大幅领先；Chinese-SimpleQA得分84.4，为开源最高。整体仅次于Gemini-3.1-Pro等闭源顶尖。
推理性能：LiveCodeBench 93.5（高于Opus 4.6的88.8、Gemini-3.1-Pro的91.7），Codeforces Rating 3206（高于GPT-5.4的3168），HMMT 2026 Feb 95.2分，Apex Shortlist 90.2分（对比模型中最高）。
长上下文：百万token MRCR与CorpusQA上超越Gemini-3.1-Pro，略逊于Claude Opus 4.6（MRCR 1M 92.9）；128K以内检索性能稳定，超过128K后才有可见衰减。

总体来看，DeepSeek-V4-Pro用一次有侧重的架构升级，重新平衡了长上下文效率、Agent能力与综合推理表现，并通过开放权重和聚合平台（如星链4SAPI）的便捷接入，为开发者提供了从旗舰到轻量的多层次选择。在成本与能力的权衡中，V4系列尤其适合对长上下文和自主智能体任务有强需求的场景。