DeepSeekV4 API价格华为昇腾950 MoE 注意力机制

DeepSeek V4 Pro API 价格5月份便宜得不像话，是否能一直持续呢？

DeepBlog · 2026-05-20 · 7 分钟阅读 · 1062 次浏览 ·开源生态

DeepSeek V4 Pro API 价格当前全行业最低，75% 折扣优惠将于 2026年5月31日结束。价格优势可能持续，因 V4 Pro 的 CSA/HCA 注意力机制将 KV 缓存占用降至原来的 10%，推理算力需求降至 27%，且华为昇腾 950 预计进一步降低成本。市场份额巨大，涨价将导致开发者流向其他模型。

DeepSeek V4 Pro 目前的 API 价格是全行业最便宜的旗舰模型，没有之一。

但这个价格是临时的。75% off 的优惠覆盖输入和输出全链路，优惠期到 2026 年 5 月 31 日。但是，到期之后是涨回原价，还是继续往下走。这个问题比模型本身的能力更需要一个判断。

这篇文章只做一件事，看这个价格优势在优惠结束之后还会不会持续下去呢。

AGENT ROUTE先把价格摊开

当前 DeepSeek V4 Pro 的 API 计费分三层，缓存命中输入、缓存未命中输入、输出。75% 折扣覆盖全部三层。

模型	缓存命中输入	缓存未命中输入	输出
DeepSeek V4 Pro（当前）	$0.0036	$0.435	$0.87
DeepSeek V4 Pro（原价）	$0.0145	$1.74	$3.48
Kimi K2.6	$0.16	$0.95	$4.00
GLM-5.1	$0.26	$1.40	$4.40
MiniMax M2.7	—	$0.30	$1.20
（单位美元/百万 token）

优惠价下，缓存命中输入只要 Kimi 的四十四分之一，输出是 Kimi 的五分之一。GLM-5.1 的输出是它的五倍。便宜得不像同一个赛道。

但去掉优惠再看。

原价下缓存未命中输入 $1.74，比 Kimi 的 $0.95 高出近一倍。输出 $3.48 仍然低于 Kimi 的 $4.00 和 GLM 的 $4.40，但优势从碾压变成了略低。MiniMax M2.7 输出只要 $1.20，更是比 DeepSeek 原价便宜三分之二。

结论很直白。当前的价格优势是优惠撑着的。如果 5 月 31 号恢复原价，DeepSeek 的性价比会从中退到跟竞品混在一起的位置。

但问题不是会不会退，是有没有人让它退。

AGENT ROUTE涨价对谁影响最大呢

开发者

数据是现成的。OpenRouter 是一个 API 聚合平台，开发者通过它统一调用各家模型。截至 5 月中旬，DeepSeek V4 Pro 在 OpenRouter 上的周处理量是 9120 亿 token，由 12 家 provider 共同支撑。深度求索自己的 provider 缓存命中率 84.6%，有效输入成本被压到 $0.07 每百万 token，连名义价格的六分之一都不到。

Reddit 上有个帖子叫「DeepSeek V4 便宜 17 倍让我认真算了一下本地跑和云端调用的账，结果很离谱」，708 票，175 条讨论。评论区里翻一翻就能看到一种共识，这个价格把本地部署的门重新锁上了。以前觉得云端贵才想自己跑，现在便宜成这样，电费都比 API 贵。

应用层的数据更直接。OpenRouter 本月调用 DeepSeek V4 Pro 最多的五个产品，前三都是 Agent，排第四的是 Anthropic 自己的编码工具 Claude Code。Claude Code 接上 DeepSeek 当主力引擎，跑常规任务用便宜的，复杂决策才切回 Claude Opus。

这说明了什么。DeepSeek V4 Pro 已经不是开发者的备选方案了，它是大量 Agent 产品的主力引擎。如果 5 月 31 号涨价，影响的不只是个人开发者的账单。Hermes Agent、OpenClaw、Claude Code 这些产品的工作流里，DeepSeek 的价格已经被当成常量在用。常量变成变量，十几亿 token 的调用量很有可能会直接流向别处。

若是涨价，面对如此巨量的Token消耗，开发者受到的影响其实是非常大的

AGENT ROUTE所以底牌是什么

所以问题变成，DeepSeek 有没有不靠优惠也能撑住价格的能力。

答案是有的。而且信号已经在路上了。

第一个信号。2026 年 4 月 26 日，DeepSeek 官方把缓存命中价格调到了发布时的十分之一。调价没有等优惠结束，直接嵌入计费结构，是永久性的。

这不是促销，是架构改了。V4 Pro 的注意力机制跟 V3.2 完全不同，采用了 CSA 和 HCA 两条压缩线并行。CSA 每 4 个 token 压成 1 个 KV 条目做稀疏检索，HCA 每 128 个 token 压成 1 个全局摘要。结果很直接，KV 缓存占用量只剩 V3.2 的 10%，单 token 推理算力降到 27%。同一个 GPU，同样的显存，能服务的并发请求量是之前的十倍。而且压缩后的 KV 条目可以落盘复用，多轮对话不用重复计算。

缓存命中降到十分之一，不是割肉。是成本真的只剩十分之一了。这个降幅是结构性的，涨不回去。

第二个信号。DeepSeek 对外公开说过，2026 年下半年华为昇腾 950 超节点批量上市后，V4 Pro 的推理成本会有显著下调空间。V4 系列的训练和推理架构从一开始就没走英伟达，全栈在华为 CANN 上跑的。昇腾 950 规模化，成本只降不升。最近DeepSeek正在寻求融资，说明很有可能就是筹备更加大的算力集群，来支持自己目前的市场以及价格策略。

两个信号叠加，给出的画面很简单。DeepSeek 的降价不是割肉换市场，是成本真的在往下走，价格跟着往下调。5 月 31 号优惠到期，不等于成本弹回去。

而且这两个信号之外，还有空间。

V4 Pro 的 MoE 架构本身就是一个效率底座，1.6 万亿参数只激活 490 亿，激活率不到 3%。专家参数已经跑在 FP4 精度上，KV 缓存开了落盘复用，这些都已经落地。再往后看，推测解码、更激进的量化、Flash 变体的蒸馏，每一步都能再往下压几个点的成本。就跟缓存命中从发布到现在一路往下走一样，这不会是一条平的线。发布价那个位置，大概率是回不去了。

第三点更现实。DeepSeek 现在靠低价抢到的市场份额是很大的。每周近万亿 token 的调用量，12 个 provider 在线竞争，Reddit 上 700 多票的帖子在帮它推广。如果 5 月 31 号突然恢复原价，把输入成本打到比 Kimi 还贵的位置，前面抢到的开发者会瞬间流失。

对DeepSeek来说，降价是战略，不是促销。战略不会因为日期到了就停。

所以回到一开始的问题。这个价格优势还能不能撑住。

缓存命中已经是发布价的十分之一，昇腾 950 年底能铺开，MoE 架构后面的优化空间还很大，每周万亿 token 的调用量需要持续的性价比来稳住。三个方向都指向同一个答案。

不会涨，而且发布价那个位置大概率是回不去了。可能从 75% off 变成永久性的价格下调，也可能优惠继续延期，等昇腾 950 到了再一步到位。