大数据文摘出品
昨日,Deepseek推出了V3.1-Terminus,据介绍,这是其混合AI模型Deepseek-V3.1的改进版本。
新模型首先解决了语言区分问题,能够更准确地区分中文与英文,从而避免出现随机特殊字符等低级错误。
同时,Deepseek对内置的代码和搜索代理进行了调整,这让模型在调用外部工具时的稳定性更高,结果也更可靠。
基准测试数据显示,最显著的提升出现在需要工具使用的任务中。在BrowseComp基准测试中,成绩从30.0分提升到38.5分,在Terminal-bench上则从31.3分跃升到36.7分。
不过,图表也揭示了一个微妙的权衡。模型在英语BrowseComp中的表现提升明显,但在中文网络上的BrowseComp-ZH却出现小幅下滑。这说明,在优化英文任务的同时,中文任务的表现可能受到影响。
值得一提的是,对于不依赖工具的纯推理任务,提升幅度较为有限,模型在思维能力上的进展没有工具使用那样突出。
模式与训练
V3.1-Terminus延续了V3.1的“双模式”设计。所谓的“思考模式”(Deepseek-reasoner)专门用于复杂的工具任务,而“非思考模式”(Deepseek-chat)则适合直接对话。
这两种模式都支持长达128,000 tokens的上下文窗口,足以应对长文档、复杂对话和跨领域任务。
新版本的训练规模也进一步扩大。团队在原有数据基础上额外加入了8400亿tokens,并配合全新的分词器和更新后的提示模版。
在与国际竞争对手的对比中,Deepseek-V3.1已经展示出强劲的表现。它在多个混合模型的基准上超越了OpenAI和Anthropic的一些版本,同时也胜过了Deepseek自己研发的纯推理模型R1。
除了功能上的提升,Deepseek也保持了此前的定价策略。输出tokens的价格仍然是每百万1.68美元,远低于GPT-5的10美元,以及Claude Opus 4.1的最高75美元。
API的缓存机制同样维持在低价水平,每百万tokens的缓存命中收费0.07美元,缓存未命中则为0.56美元。这样的定价明显是为了吸引开发者和企业在大规模部署时选择Deepseek。
此外,V3.1-Terminus不仅可以通过App和网页端使用,也对外提供API,并且在Hugging Face上开源了模型权重,采用MIT许可协议。
模型已发布:Hugging Face:
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
注:头图AI生成