今天,DeepSeek一口气发布两款新模型:
DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。
DeepSeek-V3.2(标准版)
- 推理能力达到GPT-5水平,仅略低于Gemini-3.0-Pro;
- 在Agent工具调用评测中达到开源模型最高水平,大幅缩小与闭源模型差距。
DeepSeek-V3.2-Speciale(长思考增强版)
- 推理能力媲美Gemini-3.0-Pro;
- 斩获IMO 2025、CMO 2025、ICPC 2025、IOI 2025四项金牌。
我们的老规矩,30个编程case,直接上dashboard:
https://deepseek-v3-2.wmxiaomu.com/
【初步测试结论】:
- 平均输出tokens: 5,922 tokens/case
- 平均耗时: 195.4秒/case
我来总结一些值得关注但可能被忽略的关键信息:
1、验证DSA稀疏注意力机制的有效性
V3.2-Exp经过两个月的用户实测,V3.2-Exp 没有在任何特定场景中显著差于 V3.1-Terminus,意味着DeepSeek在底层架构创新上走对了路。
2、思考模式的工具调用突破
这是首个将深度思考与工具调用融合的模型。之前的思考模型(如o1)都无法在思考时调用工具,V3.2打破了这个限制。技术报告提到他们构造了1800+环境、85000+复杂指令的强化学习任务,这套训练方法论有价值。
3、未针对测试集工具训练的泛化能力
官方特别强调“V3.2并没有针对这些测试集的工具进行特殊训练”,但在Agent评测中仍达到开源最高水平。潜台词是说明模型的泛化能力很强,不是靠刷榜优化出来的。
4、Speciale版的定位很特殊
这个版本融合了DeepSeek-Math-V2的定理证明能力,专门用于极限推理场景。但它不支持工具调用,也没针对日常对话优化,纯粹是为了探索模型能力边界。Speciale版的API只开放到12月15日。
5、支持Claude Code,但不适配Cline、RooCode等非标准工具调用组件,说明思考模式对工具调用协议有特殊要求。这对开发者选型有实际参考价值。