首页
学习
活动
专区
圈层
工具
发布

V4前的最后版本?DeepSeek-V3.1-Terminus小版本更新

DeepSeek V3.1又一次更新了小版本。从这个Terminus命名来看,而这一次应该时V3.1的最后一个版本了。也就是下一次的DeepSeek大概率是V4版本。

目前DeepSeek官方App、网页端、小程序与DeepSeek API模型均已同步更新为DeepSeek-V3.1-Terminus。

开源地址如下:

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus

为什么V3.1又更新了?

那么为什么只一次有更新了V3.1的一个小版本呢?从官方解释来看,主要是为了接近之前版本用户反馈的bug问题。

这个Bug问题就是之前版本在回答中,会经常出现“极”这个字。

比如有人在用DeepSeek整理物理试卷的时候,就发现它会在回复中出现“极”这个字。

之前我就分析过,出现“极”这个bug大概率是训练数据。

举了个例子,比如让模型列举素数,正常来说应该一直列下去,像"素数表2,3,5,7..."这样。但模型会列到一半突然自己停了,变成个有限列表,比如"素数表2,3,5,7...997,极长"。

这个"极长"的用法,跟现在讨论的"极"字问题特别像,经常是在一堆重复内容后突然冒出来,像是想把推理拉回正轨。有时候模型甚至会输出"90000000...0000极大的数字"这种东西。

因此问题可能出在数据清洗不够彻底。之前的V3.1版本做SFT(监督微调)数据合成,在构建预训练数据时,可能没有删除掉一组叫"'极长'的数组"的脏数据。

因此想要解决这个问题,需要对V3.1版本用新的数据集进行重新训练。

还有哪些地方升级了?

V3.1-Terminus模型除了解决上面的Bug之外,还有两个改进的地方:

语言一致性:更少的 CN/EN 混淆,不再有随机字符。

🤖代理升级:更强大的代码代理和搜索代理性能。

从官方公布在基准测试集上公布的成绩来看,Terminus 更适合需要Agent类的复杂任务,而 V3.1 在 编程竞赛类任务仍有优势。

在推理模式:Terminus 在逻辑推理、知识考试等任务略优,但在 Codeforces 这种编程题反而下降。

工具模式:Terminus 大部分指标提升,特别是终端操作、软件工程和问答,但在中文检索表现不如 V3.1。

在网友的测试上,一些案例会有明显的提升。以小球弹跳模拟为例,其运行结果如下所示。该模型所生成的网页采用简约设计风格,然而所模拟的重力及摩擦力效果极为逼真。要实现此类效果,不仅要求模型具备较强的编程能力,还需掌握相应的物理学知识。

另一方面,V3.1一直聚焦在Agent的测试当中,这进一步说明了之前有新闻说梁文峰在开发Agent的消息是真的。有理由相信DeepSeek公司已将智能体能力作为版本迭代重要指标。这说明梁文锋带领 DeepSeek 的组织在底层架构、训练策略、API 支持、工具调用机制等多个方面,都在为实现更强 Agent 做准备。

目前真的越来越期待年底的Agent了,说不定会给我们一个大惊喜

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Obd6qBFLsqF1RLqOUw6UopxA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券