Task 4 CNN back-propagation 反向传播算法

平凡的学生族

发布于 2019-05-25 10:00:42

9100

发布于 2019-05-25 10:00:42

文章被收录于专栏：后端技术后端技术

1. 如何理解后向传播

参考CNN卷积神经网络学习笔记3：权值更新公式推导后向传播的过程就是梯度向回传递，在CNN中，梯度的计算主要涉及三种情形

卷积层
池化层
全连接层

其中，卷积层涉及3种操作下的梯度计算

卷积操作
偏置
激活操作

池化层则有两种情形：

平均池化
最大池化

而全连接层的后向传播与全连接神经网络的后向传播原理一致。涉及：

权重的相乘与偏置
激活操作

本文先讨论全连接层的后向传播，再讨论卷积层、池化层的梯度传递。

2. 全连接层的梯度计算

知乎的如何理解神经网络里面的反向传播算法讲的很好。主要是输出层与隐藏层的梯度传递

2.1 输出层的梯度传递

输出层示意图

链式法则

各项求解

梯度下降公式

灵敏度: 关于节点的梯度

这个就是关于节点的梯度的计算(相对于权重的梯度的计算。因为我们是要用梯度下降改变权值，所以要求权重的梯度，但在过程中总是要得到关于每一层的节点的梯度)，又称灵敏度，表示了对最终误差造成的影响。正因为它的这个意义，关于一个权重的梯度可以由该权重的上的输出乘以节点的灵敏度得到，也就是

这个公式同样适用于隐藏层。

2.2 隐藏层的梯度传递

隐藏层示意图

链式法则

E_total / out_h1

另外两项

得到隐藏层权重的梯度

灵敏度

这里同样印证了上文的公式：权重的梯度=输出节点的灵敏度 * 权重上的值

3. 卷积层

3.1 卷积操作

3.1.1 卷积操作的各个梯度

参考 Forward And Backpropagation in Convolutional Neural Network. 假如有特征图与卷积核如下：

且输出与这两个矩阵的关系如下：

那么，关于卷积核F的每一项F_ij的梯度计算公式如下：

也就等于：

当我们仔细观察上图这几个式子的规律，可以发现，卷积核的梯度可以这样得来：

然后卷积核各项都可以根据此梯度进行调整。但是，我们还要把梯度传递给上一层，就需要计算关于输入的梯度。通过与计算卷积核的梯度同样的方法，我们可以得到关于各个X_ij的梯度：

仔细观察上图这几个式子的规律，可以发现，输入的梯度可以化为全卷积操作：

全卷积的具体操作如下：

3.1.2 关于输入的梯度的用途

本来我感觉奇怪，如果关于卷积核的梯度是用于调整卷积核各项的值的话，那关于输入的梯度是用来做什么的呢？我看到了文章评论区有人刚好问了这个问题：

原来，它是用于计算上一层的梯度用的。其实，这一层对输入的梯度

就等于上一层对输出的梯度

这篇文章Back Propagation in Convolutional Neural Networks — Intuition and Code也提到了它的用处：

It is important to understand that ?x (or ?h for previous layer) would be the input for the backward pass of the previous layer. This is the core principle behind the success of back propagation.