在Dropout的情况下,模型是共享参数的,其中每个模型继承的父神经网络参 数的不同子集。参数共享使得在有限可用的内存下代表指数数量的模型变得可能。...即使是 10 − 20 个掩码就 足以获得不错的表现。
然而,有一个更好的方法能得到一个不错的近似整个集成的预测,且只需一个 前向传播的代价。...许多其他差不多强大正则化策略对模 型结构的限制更严格。
虽然Dropout在特定模型上每一步的代价是微不足道的,但在一个完整的系统 使用Dropout的代价可能非常显著。...不出意外的话,使 用Dropout时最佳验证集的误差会低很多,但这是以更大的模型和更多训练算法的迭 代次数为代价换来的。对于非常大的数据集,正则化带来的泛化误差减少得很小。...Dropout强大的大部分是由于施加到隐藏单元的掩码噪声,了解这一事实是重要的。这可以看作是对输入内容的信息高度智能化、自适应破坏的一种形式,而不是 对输入原始值的破坏。