论文笔记：Fraternal Dropout

文章来源：企鹅号 - LVPaperDaily

来自：ICLR 2018

作者：Konrad Zołna, Devansh Arpit, Dendi Suhubdy, Yoshua Bengio

背景

递归神经网络( RNNs )是用于语言建模和序列预测的一类重要的神经网络模型。然而，优化RNNs比优化前馈神经网络更难。文献中已经提出了许多技术来解决这个问题。本文提出了一种简单的技术，称为Fraternal Dropout，利用dropout来实现这一目标。

本文方法

Fraternal Dropout：

训练具有不同dropout值的RNN (共享参数)的两个相同副本，同时最小化它们(进行softmax操作之前的)预测值之间的差异。通过这种方式，我们的正则化操作鼓励RNNs的表示对于不同的dropout值是不变的。

公式描述：

在每个时间步t，我们同时前馈输入样本X，通过共享相同参数θ但具有不同dropout mask sti和stj的RNN的两个相同拷贝。这在每个时间步t处产生两个损失值，由lt（pt（zt，sti;θ），Y）和lt（pt（zt，stj;θ），Y）给出。

Fraternal Dropout的整体损失函数如下：

其中k是正则化系数。m是pt（zt，sti;θ）的维度。RFD（zt;θ）由下得到：

我们使用蒙特卡洛采样来逼近RFD（zt;θ）。

我们注意到，我们的目标的正则化等同于使用不同的dropout mask最小化预测函数的方差，如下所示。

sti和stj独立同分布。

实验

language models：文中对模型进行了评估，并在两个基准数据集( Penn Treebank和Wikitext - 2 )上，取得了序列建模任务的最优结果。（tabel 1和tabel 2）

image captioning：我们还证明，我们的方法可以显著提高图像标注( Microsoft COCO )和半监督( CIFAR - 10 )任务的性能。（tabel 3）

总结

本文研究了一种dropout的变体，称为fraternal dropout。该方法与期望线性dropout密切相关，因此具有一定的增量性。尽管如此，fraternal dropout确实将PTB和wikitext-2上语言模型最优结果提高了约0.5 - 1.7个perplexity 。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货