首页
学习
活动
专区
圈层
工具
发布

DeepSeek-V3.2,总结一些可能被忽略的关键信息

今天,DeepSeek一口气发布两款新模型:

DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

DeepSeek-V3.2(标准版)

- 推理能力达到GPT-5水平,仅略低于Gemini-3.0-Pro;

- 在Agent工具调用评测中达到开源模型最高水平,大幅缩小与闭源模型差距。

DeepSeek-V3.2-Speciale(长思考增强版)

- 推理能力媲美Gemini-3.0-Pro;

- 斩获IMO 2025、CMO 2025、ICPC 2025、IOI 2025四项金牌。

我们的老规矩,30个编程case,直接上dashboard:

https://deepseek-v3-2.wmxiaomu.com/

【初步测试结论】:

- 平均输出tokens: 5,922 tokens/case

- 平均耗时: 195.4秒/case

我来总结一些值得关注但可能被忽略的关键信息:

1、验证DSA稀疏注意力机制的有效性

V3.2-Exp经过两个月的用户实测,V3.2-Exp 没有在任何特定场景中显著差于 V3.1-Terminus,意味着DeepSeek在底层架构创新上走对了路。

2、思考模式的工具调用突破

这是首个将深度思考与工具调用融合的模型。之前的思考模型(如o1)都无法在思考时调用工具,V3.2打破了这个限制。技术报告提到他们构造了1800+环境、85000+复杂指令的强化学习任务,这套训练方法论有价值。

3、未针对测试集工具训练的泛化能力

官方特别强调“V3.2并没有针对这些测试集的工具进行特殊训练”,但在Agent评测中仍达到开源最高水平。潜台词是说明模型的泛化能力很强,不是靠刷榜优化出来的。

4、Speciale版的定位很特殊

这个版本融合了DeepSeek-Math-V2的定理证明能力,专门用于极限推理场景。但它不支持工具调用,也没针对日常对话优化,纯粹是为了探索模型能力边界。Speciale版的API只开放到12月15日。

5、支持Claude Code,但不适配Cline、RooCode等非标准工具调用组件,说明思考模式对工具调用协议有特殊要求。这对开发者选型有实际参考价值。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OIdc37qvM7O199zlWZdpoF4g0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券