V4前的最后版本？DeepSeek-V3.1-Terminus小版本更新

文章来源：企鹅号 - 算法一只狗

DeepSeek V3.1又一次更新了小版本。从这个Terminus命名来看，而这一次应该时V3.1的最后一个版本了。也就是下一次的DeepSeek大概率是V4版本。

目前DeepSeek官方App、网页端、小程序与DeepSeek API模型均已同步更新为DeepSeek-V3.1-Terminus。

开源地址如下：

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus

为什么V3.1又更新了？

那么为什么只一次有更新了V3.1的一个小版本呢？从官方解释来看，主要是为了接近之前版本用户反馈的bug问题。

这个Bug问题就是之前版本在回答中，会经常出现“极”这个字。

比如有人在用DeepSeek整理物理试卷的时候，就发现它会在回复中出现“极”这个字。

之前我就分析过，出现“极”这个bug大概率是训练数据。

举了个例子，比如让模型列举素数，正常来说应该一直列下去，像"素数表2,3,5,7..."这样。但模型会列到一半突然自己停了，变成个有限列表，比如"素数表2,3,5,7...997,极长"。

这个"极长"的用法，跟现在讨论的"极"字问题特别像，经常是在一堆重复内容后突然冒出来，像是想把推理拉回正轨。有时候模型甚至会输出"90000000...0000极大的数字"这种东西。

因此问题可能出在数据清洗不够彻底。之前的V3.1版本做SFT（监督微调）数据合成，在构建预训练数据时，可能没有删除掉一组叫"'极长'的数组"的脏数据。

因此想要解决这个问题，需要对V3.1版本用新的数据集进行重新训练。

还有哪些地方升级了？

V3.1-Terminus模型除了解决上面的Bug之外，还有两个改进的地方：

语言一致性：更少的 CN/EN 混淆，不再有随机字符。

🤖代理升级：更强大的代码代理和搜索代理性能。

从官方公布在基准测试集上公布的成绩来看，Terminus 更适合需要Agent类的复杂任务，而 V3.1 在编程竞赛类任务仍有优势。

在推理模式：Terminus 在逻辑推理、知识考试等任务略优，但在 Codeforces 这种编程题反而下降。

工具模式：Terminus 大部分指标提升，特别是终端操作、软件工程和问答，但在中文检索表现不如 V3.1。

在网友的测试上，一些案例会有明显的提升。以小球弹跳模拟为例，其运行结果如下所示。该模型所生成的网页采用简约设计风格，然而所模拟的重力及摩擦力效果极为逼真。要实现此类效果，不仅要求模型具备较强的编程能力，还需掌握相应的物理学知识。

另一方面，V3.1一直聚焦在Agent的测试当中，这进一步说明了之前有新闻说梁文峰在开发Agent的消息是真的。有理由相信DeepSeek公司已将智能体能力作为版本迭代重要指标。这说明梁文锋带领 DeepSeek 的组织在底层架构、训练策略、API 支持、工具调用机制等多个方面，都在为实现更强 Agent 做准备。

目前真的越来越期待年底的Agent了，说不定会给我们一个大惊喜

发表于: 2025-09-242025-09-24 10:26:13
原文链接：https://page.om.qq.com/page/Obd6qBFLsqF1RLqOUw6UopxA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

V4前的最后版本？DeepSeek-V3.1-Terminus小版本更新

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐