文|海伦
编辑|博阳
9月22日消息,深度求索(DeepSeek)于今日晚宣布,DeepSeek-V3.1已正式升级至 DeepSeek-V3.1-Terminus 版本。本次更新在保持模型原有性能的基础上,针对用户反馈的问题进行了改进。改进包括重点优化了语言一致性与 Agent 能力:有效缓解了中英文混杂及异常字符问题,并显著提升了 Code Agent 与 Search Agent 的实际表现。
性能更稳定,Agent 能力增强
据官方介绍,DeepSeek-V3.1-Terminus 的输出效果相比前一版本更加稳定,新模型各领域测评结果如下:
如图所示:DeepSeek-V3.1-Terminus 相比 V3.1 基本性能更稳定,V3.1-Terminus 的优化方向更偏向于“Agent能力”(浏览器、终端、软件工程任务),强化了模型作为行动智能体的可用性。
在非Agent类基准测试 中,DeepSeek-V3.1-Terminus 相比 DeepSeek-V3.1 整体呈现 0.2%–36.5% 的性能提升,但部分项目也出现了小幅下降。在 HLE(Humanity’s Last Exam,人类终极测试) 上的进步最为显著,该测试主要考察模型在专家级高难度知识、多模态理解以及深度推理等方面的能力。
在 Agent测评 中,DeepSeek-V3.1-Terminus 在网页浏览(BrowseComp)、简单问答(SimpleQA)、以及多项编程相关测试(SWE Verified、SWE-bench Multilingual、Terminal-bench)上均取得了小幅提升,仅在中文网页浏览(BrowseComp-zh)上略有下降。
官方表示,目前,官方 App、网页端、小程序与 DeepSeek API 模型均已同步更新为 DeepSeek-V3.1-Terminus。