让长文本处理又快又好的新方法:NSA 原⽣稀疏注意⼒机制
最近,DeepSeek 在优化大语言模型的长文本处理能力上取得了新突破。
传统模型在处理一篇小说或整个代码库时,常因计算量过大而卡顿。
DeepSeek 提出的NSA(原⽣稀疏注意⼒机制),像给模型装上了“智能滤网”,既能抓住关键信息,又大幅降低了计算负担,速度直接提升 11.6 倍。
传统注意力机制(Full Attention)要求模型在处理每个词时,都要和之前所有词做关联计算。
想象一下,如果一篇文章有 6 万个词,模型需要做近 36 亿次计算!这种“全员参与”的模式虽然全面,但效率极低。尤其在实际应用中,解码一段长文本可能要花 70%的时间在注意力计算上(图 1 右)。
▲ 图 1 | 左:NSA 在各项任务中表现不输全注意力模型;右:处理 6.4 万长度文本时,NSA 解码速度提升 11.6 倍。
人类阅读长文时会自然跳过无关段落,只关注关键部分。
NSA 模仿这一机制,设计了三层注意力筛网(图 2):
▲ 图 2 |三种注意力模式分工合作,绿色区域代表实际计算部分
这种设计让计算量骤减——原本需要处理 6 万个词,现在只需关注约 5 千个关键点,同时通过硬件级优化(如连续内存读取、Tensor Core 加速),让理论提速真正落地。
DeepSeek 在 270 亿参数模型上做了全面测试:
▲ 图 5 | 64k 上下⽂⻓度的上下⽂位置上的⼤海捞针检索准确率
更关键的是速度优势:
现有方案多在模型训练完成后才启用稀疏计算,相当于给建好的房子拆墙开窗。
而 NSA 从一开始就让模型学习如何高效分配注意力:
试想这些场景:
NSA 已在这些方向初步验证成功(表 2)
▲ 表 2 | NSA 与 LongBench 上的基线之间的性能⽐较
未来,它可能成为处理长文本的“标配”技术,让大模型真正突破上下文长度的枷锁。