在这个小例子中,所 得到的大部分网络没有输入单元或没有从输入连接到输出的路径。当层较宽时,丢弃所有从输入 到输出的可能路径的概率变小,所以这个问题对于层较宽的网络不是很重要。...无论哪种方式,我们的目标是确保在测试时一个单元的期望总输入是与 在训练时该单元的期望总输入是大致相同(即使近半单位在训练时丢失)。
对许多不具有非线性隐藏单元的模型族,权重比例推断规则是精确的。...其他线性模型有类似的结果。而对于深度模型,Dropout与权重衰减是不等 同的。
使用Dropout训练时的随机性不是这个方法成功的必要条件。它仅仅是近似所有 子模型总和的一个方法。...例如,如果模型学得通过鼻检测脸的隐藏单元 hi,那么丢失hi 对应于擦除图像中有鼻子的信息。模型必须学习另一种 hi,要么是鼻子存在的冗 余编码,要么是脸部的另一特征,如嘴。...传统的噪声注入技术,在输入端加非结构 化的噪声不能够随机地从脸部图像中抹去关于鼻子的信息,除非噪声的幅度大到几 乎能抹去图像中所有的信息。