首页
学习
活动
专区
圈层
工具
发布

DeepSeek发布V3.2-Exp实验性模型:引入稀疏注意力机制

文|涵清

编辑|可君

9月29日消息,深度求索(DeepSeek)今日宣布推出最新实验性版本——DeepSeek-V3.2-Exp。

作为V3.1-Terminus的迭代版本,V3.2-Exp首次引入DeepSeekSparseAttention(DSA)稀疏注意力机制,用于探索和验证长文本场景下的训练与推理效率优化。

官方介绍称,本次实验性版本在训练配置上与V3.1-Terminus保持严格一致,核心目标是检验DSA在长上下文任务中的计算效率表现。

结果显示,模型在保持几乎一致输出质量的同时,实现了训练与推理效率的显著提升。

基准测试结果

在多项权威公开基准中,V3.2-Exp与V3.1-Terminus整体表现接近:

推理类任务:

MMLU-Pro(85.085.0,持平)

AIME2025(88.489.3,提升)

Codeforces(20462121,提升)

Agent工具任务:

BrowseComp(38.540.1)

BrowseComp-zh(45.047.9)

SimpleQA(96.897.1)均有小幅提升。

整体来看,V3.2-Exp在多数指标上维持稳定水准,并在数学推理与编程任务上展现出正向优化趋势。

DeepSeek表示,V3.2-Exp的发布并非面向大规模用户的常规升级,而是一次实验性探索,旨在为下一代高效Transformer架构奠定基础。

未来,团队将继续推进DSA在更大规模模型和更复杂任务中的应用研究。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OCW93-xbDypAaVTNZuMTjQJg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券