有
形状,
表示的输出通道的数量.下标
表示第几层.
,
表示激活函数ReLU, 表示前一层的输出经过激活函数变成下一层的输入.
表示网络下一层的输入通道数等于上一层的输出通道数....进一步,因为
是相互独立的, 所以根据(3)式,可将(4)式推导为
初始化的时候令权重的均值是0, 且假设更新的过程中权重的均值一直是0,则
,但是
是上一层通过ReLU得到的,所以
....这里的
就是输入的样本, 我们会将其归一化处理, 所以
, 现在让每层输出方差等于1, 即
举例层卷积, 输入大小为
, 分别表示通道数量、高、宽, 卷积核大小为
, 分别表示输出通道数量...则该层的权重
, 偏置初始化为0.
个参数都是从这个分布里面采样....与正常的反向传播推导不一样, 这里假设
表示
个通道,每个通道
大小,
,与正向传播的时候一样,
有
个通道,
有
个通道.
的大小为
,所以
的形状为
.