反向传播算法推导-卷积神经网络

原创

SIGAI学习与实践平台

发布于 2018-08-08 15:40:06

1.3K0

发布于 2018-08-08 15:40:06

原创声明：本文为 SIGAI 原创文章，仅供个人学习使用，未经允许，不能用于商业目的。

在SIGAI之前的公众号文章“反向传播算法推导-全连接神经网络”中，我们推导了全连接神经网络的反向传播算法。其核心是定义误差项，以及确定误差项的递推公式，再根据误差项得到对权重矩阵、偏置向量的梯度。最后用梯度下降法更新。卷积神经网络由于引入了卷积层和池化层，因此情况有所不同。在今天这篇文章中，我们将详细为大家推导卷积神经网络的反向传播算法。对于卷积层，我们将按两条路线进行推导，分别是标准的卷积运算实现，以及将卷积转化成矩阵乘法的实现。在文章的最后一节，我们将介绍具体的工程实现，即卷积神经网络的卷积层，池化层，激活函数层，损失层怎样完成反向传播功能。

回顾

首先回顾一下全连接神经网络反向传播算法的误差项递推计算公式。根据第l层的误差项计算第l-1层的误差项的递推公式为：

其中W为权重矩阵，u为临时变量，f为激活函数。根据误差项计算权重梯度的公式为：

其中x为本层的输入向量。这几组公式具有普遍意义，对于卷积神经网络的全连接层依然适用。如果你对这些公式的推导还不清楚，请先去阅读我们之前的文章“反向传播算法推导-全连接神经网络”。

卷积层

首先推导卷积层的反向传播计算公式。正向传播时，卷积层实现的映射为：

我们用前面的这个例子来进行计算：

卷积输出图像的任意一个元素都与卷积核矩阵的任意一个元素都有关，因为输出图像的每一个像素值都共用了一个卷积核模板。反向传播时需要计算损失函数对卷积核以及偏置项的偏导数，和全连接网络不同的是，卷积核要作用于同一个图像的多个不同位置。

上面的描述有些抽象，下面我们用一个具体的例子来说明。假设卷积核矩阵为：

输入图像是：

卷积之后产生的输出图像是U，注意这里只进行了卷积、加偏置项操作，没有使用激活函数：

正向传播时的卷积操作为：

反向传播时需要计算损失函数对卷积核以及偏置项的偏导数，和全连接网络不同的是，卷积核要反复作用于同一个图像的多个不同位置。根据链式法则，损失函数对第l层的卷积核的偏导数为：

这是激活函数对输入值的导数，激活函数作用于每一个元素，产生同尺寸的输出图像，和全连接网络相同。第三个乘积项为：

偏置项的偏导数更简单：

这和全连接层的计算方式类似。同样的定义误差项为：

这是损失函数对临时变量的偏导数。和全连接型不同的是这是一个矩阵：

尺寸和卷积输出图像相同，而全连接层的误差向量和该层的神经元个数相等。这样有：

下面计算损失函数对卷积核各个元素的偏导数，根据链式法则有：

其他的以此类推。从上面几个偏导数的值我们可以总结出这个规律：损失函数对卷积核的偏导数实际上就是输入图像矩阵与误差矩阵的卷积：

正向传播时的卷积操作为：

根据定义：

由于：

因此有：

类似的可以得到：

从而有：

类似的有：

将上面的结论推广到一般情况，我们得到误差项的递推公式为：

其中rot180表示矩阵顺时针旋转180度操作。至此根据误差项得到了卷积层的权重，偏置项的偏导数；并且把误差项通过卷积层传播到了前一层。推导卷积层反向传播算法计算公式的另外一种思路是把卷积运算转换成矩阵乘法，这种做法更容易理解，在后面将会介绍。

池化层

至此我们得到了卷积层和池化层的反向传播实现。全连接层的反向传播计算方法和全连接神经网络相同，组合起来我们就得到了整个卷积网络的反向传播算法计算公式。

将卷积转化成矩阵乘法

如果用标准的形式实现卷积，则要用循环实现，依次执行乘法和加法运算。为了加速，可以将卷积操作转化成矩阵乘法实现，以充分利用GPU的并行计算能力。

整个过程分为以下3步：

1.将待卷积图像、卷积核转换成矩阵

2.调用通用矩阵乘法GEMM函数对两个矩阵进行乘积

3.将结果矩阵转换回图像

在反卷积的原理介绍中，我们也介绍了这种用矩阵乘法实现卷积运算的思路。在Caffe的实现中和前面的思路略有不同，不是将卷积核的元素复制多份，而是将待卷积图像的元素复制多份。

对于第一个卷积位置的s×s子图像，转换成列向量之后变为：

转换之后变成这样的列向量：

如果卷积核有多个通道，就将这多个通道拼接起来，形成一个更大的行向量。由于卷积层有多个卷积核，因此这样的行向量有多个，将这些行向量合并在一起，形成一个矩阵：

有了上面这些矩阵，最后就将卷积操作转换成如下的矩阵乘积：

乘积结果矩阵的每一行是一个卷积结果图像。下面用一个实际的例子来说明。假设输入图像为：

卷积核为：

则输入图像的第一个卷积位置的子图像为：

转化为列向量后为：

第二个卷积位置的子图像为：

转化成列向量为：

总共有4个卷积子图像，这样整个图像转换成矩阵之后为：

将卷积核转换成矩阵之后为：

读者可以验证，矩阵乘法：

即为卷积的结果。

采用这种矩阵乘法之后，反向传播求导可以很方面的通过矩阵乘法实现，和全连接神经网络类似。假设卷积输出图像为Y，即：

而误差项传播到前一层的计算公式为：

工程实现

下面我们介绍全连接层，卷积层，池化层，激活函层，损失层的工程实现细节。核心是正向传播和反向传播的实现。

在实现时，由于激活函数对全连接层，卷积层，以后要讲述的循环神经网络的循环层都是一样的，因此为了代码复用，灵活组合，一般将激活函数单独拆分成一层来实现。

在之前的文章“反向传播算法推导-全连接神经网络”中已经介绍过，激活函数实现的是向量到向量的逐元素映射，对输入向量的每个分量进行激活函数变换。正向传播时接受前一层的输入，通过激活函数作用于输入数据的每个元素之后产生输出。反向传播时接受后一层传入的误差项，计算本层的误差项并把误差项传播到前一层，计算公式为：