我所读到的所有关于将辍学应用于rnn的参考资料--这篇由Zaremba et.阿尔撰写的论文--说不要在重复的连接之间应用辍学。神经元应在LSTM层之前或之后随机脱落,而不应在LSTM层间脱落.好的。
在每个人引用的文件中,似乎每个时间步骤都应用了一个随机的“退出掩码”,而不是产生一个随机的“退出掩码”并重用它,将它应用于被删除的给定层中的所有时间步骤。然后在下一批上生成一个新的“辍学掩码”。
更重要的是,现在更重要的是,tensorflow是如何做到的?我已经检查了tensorflow api,并试图搜索详细的解释,但还没有找到一个。
https://stackoverflow.com/questions/42488475
复制相似问题