[ICML]好文简读：遗忘不相关信息以减少Attention计算量

智能生信

发布于 2021-11-02 17:12:13

4500

发布于 2021-11-02 17:12:13

文章被收录于专栏：智能生信

论文题目：

Not all memories are created equal: learning to forget by expiring

论文摘要：

这是一篇研究减少Attention计算量的方法。作者提出了Expire-Span方法，该方法可以通过记住重要的信息，遗忘不相关的信息减少Attention计算量。具体实现方法就是对每个memory学习一个Expire-Span系数，该系数可以控制这个memory的存在时间，超出时间后该memory就会被丢弃，不再参与到Attention的计算之中。在实验部分，Expire-Span被应用到长序列建模和与memory相关的强化学习任务中，获得了SOTA的结果。