首页
学习
活动
专区
圈层
工具
发布

DeepSeek-V3.1 版本更新,Agent 能力再升级

文|海伦

编辑|博阳

9月22日消息,深度求索(DeepSeek)于今日晚宣布,DeepSeek-V3.1已正式升级至 DeepSeek-V3.1-Terminus 版本。本次更新在保持模型原有性能的基础上,针对用户反馈的问题进行了改进。改进包括重点优化了语言一致性与 Agent 能力:有效缓解了中英文混杂及异常字符问题,并显著提升了 Code Agent 与 Search Agent 的实际表现。

性能更稳定,Agent 能力增强

据官方介绍,DeepSeek-V3.1-Terminus 的输出效果相比前一版本更加稳定,新模型各领域测评结果如下:

如图所示:DeepSeek-V3.1-Terminus 相比 V3.1 基本性能更稳定,V3.1-Terminus 的优化方向更偏向于“Agent能力”(浏览器、终端、软件工程任务),强化了模型作为行动智能体的可用性。

非Agent类基准测试 中,DeepSeek-V3.1-Terminus 相比 DeepSeek-V3.1 整体呈现 0.2%–36.5% 的性能提升,但部分项目也出现了小幅下降。在 HLE(Humanity’s Last Exam,人类终极测试) 上的进步最为显著,该测试主要考察模型在专家级高难度知识、多模态理解以及深度推理等方面的能力。

Agent测评 中,DeepSeek-V3.1-Terminus 在网页浏览(BrowseComp)、简单问答(SimpleQA)、以及多项编程相关测试(SWE Verified、SWE-bench Multilingual、Terminal-bench)上均取得了小幅提升,仅在中文网页浏览(BrowseComp-zh)上略有下降。

官方表示,目前,官方 App、网页端、小程序与 DeepSeek API 模型均已同步更新为 DeepSeek-V3.1-Terminus。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Oje9mVQdglBWAcPUiWrR7Ldg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券