文|涵清
编辑|可君
9月29日消息,深度求索(DeepSeek)今日宣布推出最新实验性版本——DeepSeek-V3.2-Exp。
作为V3.1-Terminus的迭代版本,V3.2-Exp首次引入DeepSeekSparseAttention(DSA)稀疏注意力机制,用于探索和验证长文本场景下的训练与推理效率优化。
官方介绍称,本次实验性版本在训练配置上与V3.1-Terminus保持严格一致,核心目标是检验DSA在长上下文任务中的计算效率表现。
结果显示,模型在保持几乎一致输出质量的同时,实现了训练与推理效率的显著提升。
基准测试结果
在多项权威公开基准中,V3.2-Exp与V3.1-Terminus整体表现接近:
推理类任务:
MMLU-Pro(85.085.0,持平)
AIME2025(88.489.3,提升)
Codeforces(20462121,提升)
Agent工具任务:
BrowseComp(38.540.1)
BrowseComp-zh(45.047.9)
SimpleQA(96.897.1)均有小幅提升。
整体来看,V3.2-Exp在多数指标上维持稳定水准,并在数学推理与编程任务上展现出正向优化趋势。
DeepSeek表示,V3.2-Exp的发布并非面向大规模用户的常规升级,而是一次实验性探索,旨在为下一代高效Transformer架构奠定基础。
未来,团队将继续推进DSA在更大规模模型和更复杂任务中的应用研究。