DeepSeek V3.1又一次更新了小版本。从这个Terminus命名来看,而这一次应该时V3.1的最后一个版本了。也就是下一次的DeepSeek大概率是V4版本。
目前DeepSeek官方App、网页端、小程序与DeepSeek API模型均已同步更新为DeepSeek-V3.1-Terminus。
开源地址如下:
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
为什么V3.1又更新了?
那么为什么只一次有更新了V3.1的一个小版本呢?从官方解释来看,主要是为了接近之前版本用户反馈的bug问题。
这个Bug问题就是之前版本在回答中,会经常出现“极”这个字。
比如有人在用DeepSeek整理物理试卷的时候,就发现它会在回复中出现“极”这个字。
之前我就分析过,出现“极”这个bug大概率是训练数据。
举了个例子,比如让模型列举素数,正常来说应该一直列下去,像"素数表2,3,5,7..."这样。但模型会列到一半突然自己停了,变成个有限列表,比如"素数表2,3,5,7...997,极长"。
这个"极长"的用法,跟现在讨论的"极"字问题特别像,经常是在一堆重复内容后突然冒出来,像是想把推理拉回正轨。有时候模型甚至会输出"90000000...0000极大的数字"这种东西。
因此问题可能出在数据清洗不够彻底。之前的V3.1版本做SFT(监督微调)数据合成,在构建预训练数据时,可能没有删除掉一组叫"'极长'的数组"的脏数据。
因此想要解决这个问题,需要对V3.1版本用新的数据集进行重新训练。
还有哪些地方升级了?
V3.1-Terminus模型除了解决上面的Bug之外,还有两个改进的地方:
语言一致性:更少的 CN/EN 混淆,不再有随机字符。
🤖代理升级:更强大的代码代理和搜索代理性能。
从官方公布在基准测试集上公布的成绩来看,Terminus 更适合需要Agent类的复杂任务,而 V3.1 在 编程竞赛类任务仍有优势。
在推理模式:Terminus 在逻辑推理、知识考试等任务略优,但在 Codeforces 这种编程题反而下降。
工具模式:Terminus 大部分指标提升,特别是终端操作、软件工程和问答,但在中文检索表现不如 V3.1。
在网友的测试上,一些案例会有明显的提升。以小球弹跳模拟为例,其运行结果如下所示。该模型所生成的网页采用简约设计风格,然而所模拟的重力及摩擦力效果极为逼真。要实现此类效果,不仅要求模型具备较强的编程能力,还需掌握相应的物理学知识。
另一方面,V3.1一直聚焦在Agent的测试当中,这进一步说明了之前有新闻说梁文峰在开发Agent的消息是真的。有理由相信DeepSeek公司已将智能体能力作为版本迭代重要指标。这说明梁文锋带领 DeepSeek 的组织在底层架构、训练策略、API 支持、工具调用机制等多个方面,都在为实现更强 Agent 做准备。
目前真的越来越期待年底的Agent了,说不定会给我们一个大惊喜