在Dropout的情况下,模型是共享参数的,其中每个模型继承的父神经网络参 数的不同子集。参数共享使得在有限可用的内存下代表指数数量的模型变得可能。...即使是 10 − 20 个掩码就 足以获得不错的表现。
然而,有一个更好的方法能得到一个不错的近似整个集成的预测,且只需一个 前向传播的代价。...不出意外的话,使 用Dropout时最佳验证集的误差会低很多,但这是以更大的模型和更多训练算法的迭 代次数为代价换来的。对于非常大的数据集,正则化带来的泛化误差减少得很小。...快速 Dropout在小神经网络上的 性能几乎与标准的Dropout相当,但在大问题上尚未产生显著地改善或尚未应用。
正如随机性对实现Dropout的正则化效果不是必要的,这也不是充分的。...Dropout强大的大部分是由于施加到隐藏单元的掩码噪声,了解这一事实是重要的。这可以看作是对输入内容的信息高度智能化、自适应破坏的一种形式,而不是 对输入原始值的破坏。