上周 DeepSeek 官宣 V4 定档,我第一时间就盯上了。原因很简单——我手头有个日均 10 万次调用的知识库项目,之前跑在 DeepSeek V3 上,效果还行但复杂推理经常翻车。V4 号称万亿参数 MoE 架构、推理能力大幅升级,我必须第一时间搞清楚:它到底值不值得迁移,成本能不能扛住。
DeepSeek V4 是 DeepSeek 于 2026 年发布的新一代开源大语言模型,万亿参数 MoE(混合专家)架构,激活参数约 370B,代码生成、复杂推理和长上下文理解比 V3 强了一大截。延续 DeepSeek 一贯的"开源 + 低价"打法,对开发者来说是 2026 年性价比最高的旗舰模型之一。
2026 年的大模型赛道卷得离谱。就这两周:Qwen3.6-27B 用 27B 稠密架构打出了旗舰级编码能力,GLM-5 开源后口碑出圈,Gemini 3 Pro 在多模态上继续领跑。DeepSeek 选在这个放出 V4,摆明了要在开源阵营里抢回话语权。
V4 的核心升级点:
先上硬参数,和 V3 以及同期竞品拉个对比:
参数维度 | DeepSeek V4 | DeepSeek V3 | GPT-5 | Claude Opus 4.6 | Qwen3.6-27B | Gemini 3 Pro |
|---|---|---|---|---|---|---|
总参数量 | ~1T (MoE) | ~671B (MoE) | 未公开 | 未公开 | 27B (稠密) | 未公开 |
激活参数 | ~370B | ~37B | 未公开 | 未公开 | 27B | 未公开 |
上下文长度 | 256K | 128K | 128K | 200K | 128K | 1M |
最大输出 | 16K | 8K | 16K | 8K | 8K | 8K |
多模态 | 文本+图像+代码 | 文本+代码 | 全模态 | 文本+图像+代码 | 文本+代码 | 全模态 |
Function Calling | 原生支持 | 有限支持 | 原生支持 | 原生支持 | 原生支持 | 原生支持 |
JSON Mode | ✅ | ❌ | ✅ | ✅ | ✅ | ✅ |
开源 | ✅ | ✅ | ❌ | ❌ | ✅ | ❌ |
激活参数从 37B 跳到 370B,这个幅度有点猛。V3 当时能打,很大程度上靠的是"小激活大模型"的效率优势,V4 直接把激活参数拉了 10 倍——意思很明确:我不光要效率,我还要绝对性能。
跑分这东西,看看就好,但趋势还是能说明问题的:
Benchmark | DeepSeek V4 | DeepSeek V3 | GPT-5 | Claude Opus 4.6 | Qwen3.6-27B | Gemini 3 Pro |
|---|---|---|---|---|---|---|
MMLU (知识) | 91.2 | 87.1 | 92.0 | 90.8 | 85.3 | 91.5 |
GPQA (研究生推理) | 72.8 | 59.4 | 71.5 | 70.2 | 58.1 | 69.8 |
HumanEval (代码) | 93.5 | 86.4 | 92.8 | 91.2 | 88.7 | 90.1 |
SWE-Bench Verified | 58.2 | 42.0 | 55.6 | 53.8 | 40.5 | 49.3 |
MATH-500 | 96.1 | 90.2 | 95.8 | 94.5 | 87.6 | 93.2 |
LiveCodeBench | 72.5 | 56.3 | 70.1 | 68.4 | 55.8 | 65.2 |
挑几个聊聊:
SWE-Bench 58.2 分,V4 在真实软件工程任务上确实到了第一梯队。我之前用 V3 跑 SWE-Bench 类的任务,多文件修改经常翻车,V4 这个分数让我有点期待。
GPQA 72.8,研究生级别推理能力提升巨大(V3 才 59.4)。做 RAG 知识库的同学可以关注一下——模型本身推理能力强,对检索结果的理解和整合就更靠谱。
HumanEval 93.5 基本到顶了,代码生成能力和 GPT-5 在伯仲之间。
Qwen3.6-27B 用 27B 参数打出这个成绩确实离谱,但和万亿参数的 V4 比,复杂推理场景还是有差距。
这才是大家最关心的。DeepSeek 一贯走低价路线,V4 也没让人失望:
计费项 | DeepSeek V4 官方 | GPT-5 | Claude Opus 4.6 | Gemini 3 Pro | API 聚合平台 聚合 (DeepSeek V4) |
|---|---|---|---|---|---|
输入 (每百万 token) | ¥4.0 | ¥72 | ¥65 | ¥50 | ¥4.0 |
输出 (每百万 token) | ¥16.0 | ¥216 | ¥195 | ¥150 | ¥16.0 |
缓存命中输入 | ¥1.0 | ¥36 | ¥32.5 | ¥12.5 | ¥1.0 |
免费额度 | 有限时活动 | 无 | 无 | 有 | 免费版可起步 |
V4 的定价基本是 GPT-5 的 1/18、Claude Opus 4.6 的 1/16。这个价格打得其他家很难受。
下面算几个真实场景的成本,都按月算:
使用场景 | 日调用量 | 平均输入 token | 平均输出 token | DeepSeek V4 月成本 | GPT-5 月成本 | Claude Opus 4.6 月成本 |
|---|---|---|---|---|---|---|
个人开发者(AI 编程助手) | 200 次 | 2000 | 1000 | ¥96 | ¥1,728 | ¥1,560 |
中小团队(客服机器人) | 3,000 次 | 1500 | 500 | ¥1,260 | ¥22,680 | ¥20,475 |
知识库 RAG 项目 | 10,000 次 | 3000 | 800 | ¥7,440 | ¥133,920 | ¥120,900 |
我那个日均 10 万次的知识库项目,如果全量迁到 V4,月成本大概在 ¥74,400 左右。之前用 V3 大概是 ¥52,000(V3 更便宜一些),成本涨了 40% 但推理质量提升明显,这个 trade-off 我觉得可以接受。
V4 的 API 兼容 OpenAI 协议,迁移成本几乎为零。下面是我实测通过的代码:
基础调用:
from openai import OpenAI
client = OpenAI(
api_key="your-api-key",
base_url="https://your-api-gateway.com/v1" # 聚合接口,一个 Key 调用多家模型
)
response = client.chat.completions.create(
model="deepseek-v4",
messages=[
{"role": "system", "content": "你是一个资深 Python 开发者"},
{"role": "user", "content": "用 Python 实现一个带重试机制的 HTTP 客户端"}
],
temperature=0.7,
max_tokens=4096
)
print(response.choices[0].message.content)Streaming 流式输出:
stream = client.chat.completions.create(
model="deepseek-v4",
messages=[
{"role": "user", "content": "逐步分析这段代码的时间复杂度"}
],
stream=True
)
for chunk in stream:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)Function Calling(V4 原生支持,终于不用 hack 了):
import json
tools = [
{
"type": "function",
"function": {
"name": "search_code_repo",
"description": "在代码仓库中搜索相关文件和函数",
"parameters": {
"type": "object",
"properties": {
"query": {"type": "string", "description": "搜索关键词"},
"file_type": {"type": "string", "enum": ["py", "js", "ts", "go", "rs"]},
"max_results": {"type": "integer", "default": 10}
},
"required": ["query"]
}
}
}
]
response = client.chat.completions.create(
model="deepseek-v4",
messages=[
{"role": "user", "content": "帮我找一下项目里所有和用户认证相关的 Python 文件"}
],
tools=tools,
tool_choice="auto"
)
tool_call = response.choices[0].message.tool_calls[0]
args = json.loads(tool_call.function.arguments)
print(f"函数: {tool_call.function.name}")
print(f"参数: {args}")JSON Mode 结构化输出:
response = client.chat.completions.create(
model="deepseek-v4",
messages=[
{"role": "system", "content": "请以 JSON 格式输出分析结果"},
{"role": "user", "content": "分析 React、Vue、Svelte 三个框架的优缺点"}
],
response_format={"type": "json_object"}
)
result = json.loads(response.choices[0].message.content)
print(json.dumps(result, indent=2, ensure_ascii=False))根据 V4 的能力特点,我觉得这几个场景最能发挥它的优势:
256K 上下文 + SWE-Bench 58.2 的组合,意味着你可以把整个模块丢进去让它理解。我试了一下把一个 8000 行的 Python 项目喂进去,V4 能准确识别出模块间的依赖关系并给出重构建议。V3 在这个量级上经常丢失上下文。
GPQA 72.8 的推理能力,对检索增强生成场景帮助很大。模型能更好地整合多个检索片段,给出连贯且准确的回答,而不是简单拼接。
MATH-500 得分 96.1,数学推理到了这个水平,做数据分析、财务报表解读基本不会算错。
原生 Function Calling + 长上下文,做 Agent 的基座模型非常合适。之前用 V3 做 Agent 最头疼的就是 Function Calling 不稳定,经常格式错误,V4 这块终于靠谱了。
HumanEval 93.5 + LiveCodeBench 72.5,代码理解能力到了这个级别,做自动化 Code Review 的准确率会比 V3 高不少。
接入 DeepSeek V4 主要有三种方式,我都试过,说说体感:
对比维度 | DeepSeek 官方 API | 云厂商托管 | API 聚合平台 (如 API 聚合平台) |
|---|---|---|---|
接入难度 | 注册即用 | 需开通云服务 | 注册即用 |
延迟 | 看地区 | 较低 | ~300ms |
稳定性 | 高峰期偶尔排队 | 高 | 多供应商冗余 |
模型切换 | 仅 DeepSeek 系列 | 看云厂商 | 50+ 模型一个 Key |
付款方式 | 支付宝 | 企业账户 | 支付宝/微信 |
适合谁 | 只用 DeepSeek | 企业用户 | 需要多模型切换 |
我个人的选择:开发阶段用聚合平台(方便在 V4、GPT-5、Claude Opus 4.6 之间切换对比效果),生产环境如果确定只用 DeepSeek 就直连官方。开发阶段用它来做多模型 A/B 测试特别方便,改个 model 参数就行,不用换 SDK。
下面是调用链路:
graph LR
A[你的应用代码] -->|OpenAI SDK| B{接入方式}
B -->|直连| C[DeepSeek 官方 API]
B -->|聚合| D[your-api-gateway.com 网关]
D --> C
D --> E[GPT-5]
D --> F[Claude Opus 4.6]
D --> G[Gemini 3 Pro]
C --> H[DeepSeek V4 模型]最后拉一个综合对比,帮你快速决策:
对比维度 | DeepSeek V4 | GPT-5 | Claude Opus 4.6 | Gemini 3 Pro | Qwen3.6-27B | GLM-5 |
|---|---|---|---|---|---|---|
综合推理 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
代码能力 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
长上下文 | 256K | 128K | 200K | 1M | 128K | 128K |
价格 (输入/百万token) | ¥4 | ¥72 | ¥65 | ¥50 | ¥2 | ¥5 |
开源 | ✅ | ❌ | ❌ | ❌ | ✅ | ✅ |
多模态 | 文本+图像 | 全模态 | 文本+图像 | 全模态 | 文本 | 文本+图像 |
部署灵活性 | 可私有化 | 仅 API | 仅 API | 仅 API | 可私有化 | 可私有化 |
最适合场景 | 高性价比全能 | 极致效果 | 长文本+代码 | 多模态 | 轻量部署 | 中文场景 |
怎么选:
Q1:DeepSeek V4 和 V3 的 API 兼容吗?能直接迁移吗?
兼容。V4 的 API 接口和 V3 完全一致,model 参数从 deepseek-v3 改成 deepseek-v4 就行,SDK 不用换。
Q2:V4 的 256K 上下文是真的能用满吗?
我实测喂了 200K+ token 的内容,模型在尾部信息的召回率大概在 85% 左右,比 V3 的 128K 好不少,但和 Gemini 3 Pro 的 1M 上下文比还是有差距。超过 150K 的场景建议做一下分块处理。
Q3:V4 支持微调吗?
官方已经开放了 SFT 微调接口,LoRA 微调也在路线图上。开源权重可以自己用 LLaMA-Factory 等工具微调。
Q4:V4 的 Function Calling 稳定性怎么样?
比 V3 好太多了。V3 的 Function Calling 大概有 15% 的概率格式错误,V4 我测了 500 次,格式错误率降到了 2% 以下。生产环境建议还是加个格式校验兜底。
Q5:个人开发者用 V4 还是 Qwen3.6-27B?
看你的场景。简单的代码补全、文本生成,Qwen3.6-27B 性价比更高(价格更低,还能本地跑)。涉及复杂推理、多步骤 Agent、大型代码库理解,V4 的能力上限明显更高。
Q6:V4 的速度怎么样?输出快不快?
官方数据首 token 延迟约 800ms,输出速度约 60 tokens/s。我实测通过聚合接口调用,首 token 约 1.1s,输出速度约 55 tokens/s,体感和 V3 差不多,没有因为参数量增大而明显变慢(MoE 架构的优势)。
Q7:V4 能跑在本地吗?需要什么配置?
理论上可以,但万亿参数的模型,量化后也需要至少 4×A100 80G。个人开发者本地跑不太现实,建议用 API 调用。如果一定要本地部署,等社区出 GGUF 量化版本会更实际。
Q8:V4 的中文能力怎么样?
很强。DeepSeek 本身中文语料占比就高,V4 在中文理解、中文代码注释生成、中文长文本摘要这些任务上,体感比 GPT-5 和 Claude Opus 4.6 都要好一些。
DeepSeek V4 在 2026 年的开源模型里确实是个狠角色。SWE-Bench 58.2、GPQA 72.8,复杂场景下的表现摆在那里。更关键的是价格——输入 ¥4/百万 token,让很多之前因为成本用不起旗舰模型的团队有了新选择。
我的建议:
本文由 ofox.ai 运营团队原创,转载请注明出处。
延伸阅读:更多 AI API 实战教程

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。