首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >DeepSeek-V3.2“稀疏注意力”炸场!初步体验效果如何?

DeepSeek-V3.2“稀疏注意力”炸场!初步体验效果如何?

原创
作者头像
算法一只狗
发布2025-09-30 11:14:02
发布2025-09-30 11:14:02
1450
举报
文章被收录于专栏:算法一只狗算法一只狗

DeepSeek-V3.2-Exp更新了

好好好,卡在了国庆节的前一天发布DeepSeek-V3.2-Exp,真的不让人活了~感觉每次重大节假日已经成为DeepSeek发布新模型的。

看看历年来的DeepSeek模型,基本都卡在过节前,这如果要适配下游任务的话,一天时间根本来不及拉

DeepSeek-V3.2-Exp更新了什么?

DeepSeek-V3.2已经同步发布了自己的技术报告,具体可以看这里

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

这一次它最主要的是引入了一个新机制DeepSeek Sparse Attention(稀疏注意力,DSA),旨在在处理长上下文(long context)时提升训练与推理效率,同时尽可能保持输出质量不变。

稀疏注意力的思路在很多新一代 Transformer 变体中都在被探索:即不是所有 token 间都做全连接的 self-attention,而是选一些关键 token 或局部连接,从而减少计算复杂度。DeepSeek 在这个版本中尝试了一种“细粒度稀疏”的策略。具体就是用到了两个关键组件:Lightning Indexer和Top-k Token Selection。

Lightning Indexer:给定一个 query token ,它会和之前的 token计算一个轻量的 index score。

它的计算量极小,主要负责快速判断哪些 token 可能相关。

Top-k Token Selection:对每个 query token,indexer 会输出一组分数 I,然后选取 top-k 的 key-value token,丢掉其余的。接下来只在这些 top-k 上计算真正的注意力。

经过两个组件之后,这样复杂度从 O(L^2)降低到O(LK),其中 k<<L

DeepSeek-V3.2-Exp的优势是什么?

得益于新模型使用了DSA的方法,它的服务成本的大幅降低,官方 API 价格也相应下调,新价格即刻生效。

同时不要以为它的模型能力有所下降,从官方的测试来看,DeepSeek-V3.2-Exp的能力和前几天发布的V3.1-Terminus 基本持平。也就是说它的推理效率更高,能力还很优秀

特别是在一些上下文比较长的任务上,它的推理花费远远低于DeepSeek-V3.1-Terminus

初步体验

Q1:使用SVG画一个思维导图

首先搜索网页,帮我查找一下DeepSeek V3.2有什么特点 然后用SVG画一个思维导图,来介绍一下

能够把最新模型在核心技术、成本优势、效率提升三个方面刻画出来。基本上效果已经出来了~

Q2:将单词“DeepSeek-V3.2-Exp”反过来写

它是把每一个字符进行拆分,然后再合并结果,答案是对的。

Q3:六边形中弹珠碰撞

请生成一个完整的HTML文件(将HTML、 CSS和JavaScript均合并成一个文件)来模拟一个蓝色小球在顺时针缓慢旋转的正六边形内形成一个文件)来模拟一个彩色小球在针旋转的正字形内部弹跳的动画,要求如下: - 小球应受重力影响,并在碰到边界时发生反弹-小球与多边形之间的碰撞检测要真实-所有代码应包含在<html>文件内,不要引用外部库或文件-动画要平滑,页面布局适配

很好的模拟小球的重力情况,同时可以把六边形进行加速和减速,弹珠很符合物理世界的瑰规律

Q4:用 Three.js 实现一款“我的世界风格”的3D飞机大战。

试一下最新版本的V3.2在游戏编程上的效果

界面中很好的区分不同的主题。比如前景绿色+蓝色方块代表玩家飞机。红色主体+黄色翅膀的是敌机。粉色小方块是子弹(敌方或玩家发射的子弹)。背景是绿色网格地面 + 天空蓝背景。

有网友测试了V3.2-Exp,用来构建一个“我的世界”游戏。可以发现V3.2对比V3.1有明显的进步

可以看到V3.2已经可以创建出比较符合的游戏场景了。而V3.1构建的场景则很简陋,完全看不出“我的世界”中的一些主题信息。

写在最后

总结来看,DeepSeek-V3.2-Exp 这次的发布可以说是一次“降本增效”的典型操作,它的能力确实让人惊讶:

(1)发布时机:依旧选择在重大节假日前夕亮相,节奏把控精准,但也让下游开发者猝不及防。 (2)技术亮点:引入 DSA(DeepSeek Sparse Attention),通过 Lightning Indexer + Top-k Token Selection,将复杂度从 O(L²) 降到 O(LK),大幅优化长上下文处理效率。 (3)价格调整:因推理效率提升,API 成本显著下降,官方立刻下调服务价格,降低了应用落地门槛。 (4)性能表现:尽管采用稀疏注意力,但整体能力与 V3.1-Terminus 基本持平,尤其在长上下文任务中展现出更优的性价比。

总体而言,DeepSeek-V3.2-Exp 不是单纯的“性能提升”,而是一次对效率与成本的再平衡。对开发者来说,它意味着在不牺牲模型能力的前提下,能够以更低成本、更快速度构建长文本/长上下文场景的应用。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • DeepSeek-V3.2-Exp更新了
  • DeepSeek-V3.2-Exp更新了什么?
  • DeepSeek-V3.2-Exp的优势是什么?
  • 初步体验
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档