深度学习中的软注意力分析及代码

CreateAMind

发布于 2018-07-20 16:45:09

6110

文章被收录于专栏：CreateAMindCreateAMind

本文摘自 http://www.cosmosshadow.com/ml/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/2016/03/08/Attention.html

基于Attention的图片主题生成

参考 Show, Attend and Tell: Neural Image Caption Generation with Visual Attention https://arxiv.org/abs/1502.03044

code：https://github.com/jazzsaxmafia/show_attend_and_tell.tensorflow

https://github.com/shmsw25/show-attend-and-tell

https://github.com/kelvinxu/arctic-captions 作者代码

⟹⟹ A bird flying over a body of water

如上，根据图片，生成主题描述。

模型

如上图，模型把图片经过CNN网络，变成特征图。 LSTM的RNN结构在此上运行Attention模型，最后得到主题输出。

编码

特征图均匀地切割成多个区域，表示为

L表示切割的区域个数。如区域大小为14×14，D=196。

输出的主题y可以编码为

K是字典的单词个数，C是句子长度。 yi的形式为 (0,0,…,0,1,0,…,0,0)，即只有第i处位置为1，其它位置为0。

解码使用lstm

z^t是对整张图片部分信息的动态表示，一个Attention模型，如下计算

其中 i表示第 i个特征区域，共 L 个。函数 fatt采用多层网络实现，利用前一时刻的隐藏状态 ht−1 与 L 个特征区域，分别得到每个区域的权重 αti 。权重 αti可以理解为(1)下一步选择哪一个特征区域的概率，也可以理解为(2)每一个特征区域在下一次输入中所占的比例。不同的理解与应用，体现在函数 ϕ 的不同实现上。按(1)实现称为 Stochastic “Hard” Attention ，按(2)实现称为 Deterministic “Soft” Attention。下图上一排为 soft 模型，下一排为 hard 模型。