Attention机制
既然采用固定的向量表示输入序列会限制模型性能,那能不能让解码器每次接收的输入都不一样呢,在每次输出时,让解码器有侧重的关注输入序列的不同部分(如:输出“machine”时,应更加关注“机”和“器”,输出“learning”时,应更加关注“学”和“习”),这就是Attention机制的思想。
加入Attention机制的Encoder-Decoder整体框架如下图所示
Attention机制几乎是现在所有序列学习的必备,Attention不是一种模型而是一种思想,受到人类在处理数据时分散注意力的启发,许多模型加上Attention机制都得到了state-of-art的结果,也促成了该思想的蓬勃发展。