首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepSeek新研究:NSA注意力机制让推理速度飙升11倍

在科技界的风头浪尖上,DeepSeek研究团队携其最新研究成果NSA(新型稀疏注意力架构)强势回归,紧随马斯克发布Grok 3的热潮之后,迅速吸引了业界的广泛关注。该团队通过推文宣布这一突破性进展,短短数小时内便收获了超过三十万的浏览量,其热度直逼OpenAI。

DeepSeek此次发布的论文详细阐述了NSA的设计理念与技术细节,这一创新机制旨在解决长上下文训练与推理中的效率瓶颈。NSA的核心策略包括动态分层稀疏策略、粗粒度的token压缩以及细粒度的token选择,这三项技术的结合不仅显著降低了预训练成本,更在推理速度上实现了质的飞跃,尤其是在解码阶段,性能提升高达11.6倍。

论文的发表也标志着DeepSeek创始人兼CEO梁文锋的亲自参与,他不仅作为共同作者,还亲自提交了这篇重量级论文,这一举动无疑为团队的研究增添了更多分量。

随着AI技术的不断进步,长上下文建模能力的重要性日益凸显,特别是在深度推理、代码生成及多轮对话系统等应用场景中。DeepSeek的R1模型正是凭借其在这一领域的突破,能够高效处理整个代码库、长篇文档,并保持对话的连贯性与复杂推理能力。然而,传统的注意力机制在处理长序列时,因其复杂性成为了性能提升的瓶颈,尤其是在解码长上下文时,softmax注意力计算几乎占据了总延迟的70-80%。

为克服这一挑战,DeepSeek团队提出了NSA架构,通过动态分层稀疏策略与token压缩、选择技术,实现了高效的长上下文建模。NSA不仅保留了全局上下文感知能力,还确保了局部精确性,并通过针对现代硬件的优化,实现了计算速度的大幅提升,支持端到端训练,有效减少了预训练计算量。

在技术评估环节,DeepSeek团队从通用基准性能、长文本基准性能及思维链推理性能三个维度,将NSA与全注意力基线及现有稀疏注意力方法进行了全面对比。结果显示,NSA在各项测试中均表现出色,不仅预训练损失曲线稳定且优于全注意力模型,还在9项评测指标中有7项达到最佳表现。特别是在长上下文任务中,NSA展现出了极高的检索精度与全局感知能力。

NSA的研究还验证了清华大学姚班早期论文中关于Transformer架构在处理复杂数学问题时的局限性。DeepSeek通过优化问题理解和答案生成,成功减少了所需tokens数量,从而得出了正确答案,而基线方法则因消耗过多tokens而失败。这一实践再次证明了NSA在效率和准确性上的显著优势。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Ol8nwuvH-iIi8PfSNiwFNg2g0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券