在Dropout的情况下,模型是共享参数的,其中每个模型继承的父神经网络参 数的不同子集。参数共享使得在有限可用的内存下代表指数数量的模型变得可能。...即使是 10 − 20 个掩码就 足以获得不错的表现。
然而,有一个更好的方法能得到一个不错的近似整个集成的预测,且只需一个 前向传播的代价。...无论哪种方式,我们的目标是确保在测试时一个单元的期望总输入是与 在训练时该单元的期望总输入是大致相同(即使近半单位在训练时丢失)。
对许多不具有非线性隐藏单元的模型族,权重比例推断规则是精确的。...不出意外的话,使 用Dropout时最佳验证集的误差会低很多,但这是以更大的模型和更多训练算法的迭 代次数为代价换来的。对于非常大的数据集,正则化带来的泛化误差减少得很小。...Dropout Boosting训练整个集成以最大化训练集上的似然。在相 同意义上,传统的Dropout类似于Bagging,这种方式类似于Boosting。