首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

论文笔记:Fraternal Dropout

来自:ICLR 2018

作者:Konrad Zołna, Devansh Arpit, Dendi Suhubdy, Yoshua Bengio

背景

递归神经网络( RNNs )是用于语言建模和序列预测的一类重要的神经网络模型。然而,优化RNNs比优化前馈神经网络更难。文献中已经提出了许多技术来解决这个问题。本文提出了一种简单的技术,称为Fraternal Dropout,利用dropout来实现这一目标。

本文方法

Fraternal Dropout

训练具有不同dropout值的RNN (共享参数)的两个相同副本,同时最小化它们(进行softmax操作之前的)预测值之间的差异。通过这种方式,我们的正则化操作鼓励RNNs的表示对于不同的dropout值是不变的。

公式描述

在每个时间步t,我们同时前馈输入样本X,通过共享相同参数θ但具有不同dropout mask sti和stj的RNN的两个相同拷贝。这在每个时间步t处产生两个损失值,由lt(pt(zt,sti;θ),Y)和lt(pt(zt,stj;θ),Y)给出。

Fraternal Dropout的整体损失函数如下:

其中k是正则化系数。m是pt(zt,sti;θ)的维度。RFD(zt;θ)由下得到:

我们使用蒙特卡洛采样来逼近RFD(zt;θ)。

我们注意到,我们的目标的正则化等同于使用不同的dropout mask最小化预测函数的方差,如下所示。

sti和stj独立同分布。

实验

language models:文中对模型进行了评估,并在两个基准数据集( Penn Treebank和Wikitext - 2 )上,取得了序列建模任务的最优结果。(tabel 1和tabel 2)

image captioning:我们还证明,我们的方法可以显著提高图像标注( Microsoft COCO )和半监督( CIFAR - 10 )任务的性能。(tabel 3)

总结

本文研究了一种dropout的变体,称为fraternal dropout。该方法与期望线性dropout密切相关,因此具有一定的增量性。尽管如此,fraternal dropout确实将PTB和wikitext-2上语言模型最优结果提高了约0.5 - 1.7个perplexity 。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180325G16P9X00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券