通常使用0.5的丢失率作为默认值,我也在我的全连接网络中使用它。这个建议遵循了最初的Dropout论文中的建议(Hinton at al)。
我的网络由不同大小的全连接层组成
[1000, 500, 100, 10, 100, 500, 1000, 20]。
我不会将dropout应用于最后一层。但我确实将其应用于10号瓶颈层。考虑到dropout = 0.5,这似乎并不合理。我猜有太多的信息丢失了。在使用dropout时,是否有一个经验法则如何处理瓶颈层?增加瓶颈大小和降低丢失率哪个更好?
发布于 2018-11-21 19:17:51
为了防止神经网络中的过拟合(重归一化),增加了Drop层。
首先,丢失率在图层的输出值中添加噪声,以打破导致过拟合的偶发模式。
这里0.5的droput rate意味着50%的值将被丢弃,这是一个高噪声比,对于瓶颈层来说是明确的否。
我建议你先训练没有dropout的瓶颈层,然后将其结果与增加dropout进行比较。
选择最能验证测试数据的模型。
https://stackoverflow.com/questions/50372583
复制相似问题