好好好,卡在了国庆节的前一天发布DeepSeek-V3.2-Exp,真的不让人活了~感觉每次重大节假日已经成为DeepSeek发布新模型的。
看看历年来的DeepSeek模型,基本都卡在过节前,这如果要适配下游任务的话,一天时间根本来不及拉
DeepSeek-V3.2已经同步发布了自己的技术报告,具体可以看这里
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
这一次它最主要的是引入了一个新机制DeepSeek Sparse Attention(稀疏注意力,DSA),旨在在处理长上下文(long context)时提升训练与推理效率,同时尽可能保持输出质量不变。
稀疏注意力的思路在很多新一代 Transformer 变体中都在被探索:即不是所有 token 间都做全连接的 self-attention,而是选一些关键 token 或局部连接,从而减少计算复杂度。DeepSeek 在这个版本中尝试了一种“细粒度稀疏”的策略。具体就是用到了两个关键组件:Lightning Indexer和Top-k Token Selection。
Lightning Indexer:给定一个 query token ,它会和之前的 token计算一个轻量的 index score。
它的计算量极小,主要负责快速判断哪些 token 可能相关。
Top-k Token Selection:对每个 query token,indexer 会输出一组分数 I,然后选取 top-k 的 key-value token,丢掉其余的。接下来只在这些 top-k 上计算真正的注意力。
经过两个组件之后,这样复杂度从 O(L^2)降低到O(LK),其中 k<<L
得益于新模型使用了DSA的方法,它的服务成本的大幅降低,官方 API 价格也相应下调,新价格即刻生效。
同时不要以为它的模型能力有所下降,从官方的测试来看,DeepSeek-V3.2-Exp的能力和前几天发布的V3.1-Terminus 基本持平。也就是说它的推理效率更高,能力还很优秀
特别是在一些上下文比较长的任务上,它的推理花费远远低于DeepSeek-V3.1-Terminus
Q1:使用SVG画一个思维导图
首先搜索网页,帮我查找一下DeepSeek V3.2有什么特点 然后用SVG画一个思维导图,来介绍一下
能够把最新模型在核心技术、成本优势、效率提升三个方面刻画出来。基本上效果已经出来了~
Q2:将单词“DeepSeek-V3.2-Exp”反过来写
它是把每一个字符进行拆分,然后再合并结果,答案是对的。
Q3:六边形中弹珠碰撞
请生成一个完整的HTML文件(将HTML、 CSS和JavaScript均合并成一个文件)来模拟一个蓝色小球在顺时针缓慢旋转的正六边形内形成一个文件)来模拟一个彩色小球在针旋转的正字形内部弹跳的动画,要求如下: - 小球应受重力影响,并在碰到边界时发生反弹-小球与多边形之间的碰撞检测要真实-所有代码应包含在<html>文件内,不要引用外部库或文件-动画要平滑,页面布局适配
很好的模拟小球的重力情况,同时可以把六边形进行加速和减速,弹珠很符合物理世界的瑰规律
Q4:用 Three.js 实现一款“我的世界风格”的3D飞机大战。
试一下最新版本的V3.2在游戏编程上的效果
界面中很好的区分不同的主题。比如前景绿色+蓝色方块代表玩家飞机。红色主体+黄色翅膀的是敌机。粉色小方块是子弹(敌方或玩家发射的子弹)。背景是绿色网格地面 + 天空蓝背景。
有网友测试了V3.2-Exp,用来构建一个“我的世界”游戏。可以发现V3.2对比V3.1有明显的进步
可以看到V3.2已经可以创建出比较符合的游戏场景了。而V3.1构建的场景则很简陋,完全看不出“我的世界”中的一些主题信息。
总结来看,DeepSeek-V3.2-Exp 这次的发布可以说是一次“降本增效”的典型操作,它的能力确实让人惊讶:
(1)发布时机:依旧选择在重大节假日前夕亮相,节奏把控精准,但也让下游开发者猝不及防。 (2)技术亮点:引入 DSA(DeepSeek Sparse Attention),通过 Lightning Indexer + Top-k Token Selection,将复杂度从 O(L²) 降到 O(LK),大幅优化长上下文处理效率。 (3)价格调整:因推理效率提升,API 成本显著下降,官方立刻下调服务价格,降低了应用落地门槛。 (4)性能表现:尽管采用稀疏注意力,但整体能力与 V3.1-Terminus 基本持平,尤其在长上下文任务中展现出更优的性价比。
总体而言,DeepSeek-V3.2-Exp 不是单纯的“性能提升”,而是一次对效率与成本的再平衡。对开发者来说,它意味着在不牺牲模型能力的前提下,能够以更低成本、更快速度构建长文本/长上下文场景的应用。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。