首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepSeek发布最新NSA架构论文 梁文锋作为共创在列

观点网讯:2月18日消息,DeepSeek发布了最新技术论文《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》。

据报道,这篇名为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek创始人梁文锋也作为共创在列。

该论文提出了一种名为NSA(Natively Sparse Attention,原生稀疏注意力)的新型注意力机制。NSA是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。

据分析,在64K长文本场景下,NSA实现解码速度提升11.6倍、前向传播9倍加速、反向传播6倍加速。

免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OpIE5okbXR_nO2BNtdTJ9KVg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券