深度神经网络(DNN)反向传播算法(BP)

    在深度神经网络(DNN)模型与前向传播算法中,我们对DNN的模型和前向传播算法做了总结,这里我们更进一步,对DNN的反向传播算法(Back Propagation,BP)做一个总结。

1. DNN反向传播算法要解决的问题

    在了解DNN的反向传播算法前,我们先要知道DNN反向传播算法要解决的问题,也就是说,什么时候我们需要这个反向传播算法? 

    回到我们监督学习的一般问题,假设我们有m个训练样本:$\{(x_1,y_1), (x_2,y_2), ..., (x_m,y_m)\}$,其中$x$为输入向量,特征维度为$n\_in$,而$y$为输出向量,特征维度为$n\_out$。我们需要利用这m个样本训练出一个模型,当有一个新的测试样本$(x_{test},?)$来到时, 我们可以预测$y_{test}$向量的输出。 

    如果我们采用DNN的模型,即我们使输入层有$n\_in$个神经元,而输出层有$n\_out$个神经元。再加上一些含有若干神经元的隐藏层。此时我们需要找到合适的所有隐藏层和输出层对应的线性系数矩阵$W$,偏倚向量$b$,让所有的训练样本输入计算出的输出尽可能的等于或很接近样本输出。怎么找到合适的参数呢?

    如果大家对传统的机器学习的算法优化过程熟悉的话,这里就很容易联想到我们可以用一个合适的损失函数来度量训练样本的输出损失,接着对这个损失函数进行优化求最小化的极值,对应的一系列线性系数矩阵$W$,偏倚向量$b$即为我们的最终结果。在DNN中,损失函数优化极值求解的过程最常见的一般是通过梯度下降法来一步步迭代完成的,当然也可以是其他的迭代方法比如牛顿法与拟牛顿法。如果大家对梯度下降法不熟悉,建议先阅读我之前写的梯度下降(Gradient Descent)小结

    对DNN的损失函数用梯度下降法进行迭代优化求极小值的过程即为我们的反向传播算法。

2. DNN反向传播算法的基本思路

    在进行DNN反向传播算法前,我们需要选择一个损失函数,来度量训练样本计算出的输出和真实的训练样本输出之间的损失。你也许会问:训练样本计算出的输出是怎么得来的?这 个输出是随机选择一系列$W,b$,用我们上一节的前向传播算法计算出来的。即通过一系列的计算:$a^l = \sigma(z^l) = \sigma(W^la^{l-1} + b^l)$。计算到输出层第$L$层对应的$a^L$即为前向传播算法计算出来的输出。

    回到损失函数,DNN可选择的损失函数有不少,为了专注算法,这里我们使用最常见的均方差来度量损失。即对于每个样本,我们期望最小化下式:$$J(W,b,x,y) = \frac{1}{2}||a^L-y||_2^2$$

    其中,$a^L$和$y$为特征维度为$n\_out$的向量,而$||S||_2$为S的L2范数。

    损失函数有了,现在我们开始用梯度下降法迭代求解每一层的$W,b$。

    首先是输出层第$L$层。注意到输出层的$W,b$满足下式:$$a^L = \sigma(z^L) = \sigma(W^La^{L-1} + b^L)$$

    这样对于输出层的参数,我们的损失函数变为:$$J(W,b,x,y) = \frac{1}{2}||a^L-y||_2^2 =  \frac{1}{2}|| \sigma(W^La^{L-1} + b^L)-y||_2^2$$

    这样求解$W,b$的梯度就简单了:$$\frac{\partial J(W,b,x,y)}{\partial W^L} = \frac{\partial J(W,b,x,y)}{\partial z^L}\frac{\partial z^L}{\partial W^L} =(a^L-y) \odot \sigma^{'}(z^L)(a^{L-1})^T$$$$\frac{\partial J(W,b,x,y)}{\partial b^L} = \frac{\partial J(W,b,x,y)}{\partial z^L}\frac{\partial z^L}{\partial b^L} =(a^L-y)\odot \sigma^{'}(z^L)$$

    注意上式中有一个符号$\odot$,它代表Hadamard积,对于两个维度相同的向量$A(a_1,a_2,...a_n)^T$和$B(b_1,b_2,...b_n)^T$,则$A \odot B = (a_1b_1, a_2b_2,...a_nb_n)^T$。

    我们注意到在求解输出层的$W,b$的时候,有公共的部分$\frac{\partial J(W,b,x,y)}{\partial z^L}$,因此我们可以把公共的部分即对$z^L$先算出来,记为:$$\delta^L = \frac{\partial J(W,b,x,y)}{\partial z^L} = (a^L-y)\odot \sigma^{'}(z^L)$$

    现在我们终于把输出层的梯度算出来了,那么如何计算上一层$L-1$层的梯度,上上层$L-2$层的梯度呢?这里我们需要一步步的递推,注意到对于第$l$层的未激活输出$z^l$,它的梯度可以表示为:$$\delta^l =\frac{\partial J(W,b,x,y)}{\partial z^l} = \frac{\partial J(W,b,x,y)}{\partial z^L}\frac{\partial z^L}{\partial z^{L-1}}\frac{\partial z^{L-1}}{\partial z^{L-2}}...\frac{\partial z^{l+1}}{\partial z^{l}}$$

    如果我们可以依次计算出第$l$层的$\delta^l$,则该层的$W^l,b^l$很容易计算?为什么呢?注意到根据前向传播算法,我们有:$$z^l= W^la^{l-1} + b^l$$

    所以根据上式我们可以很方便的计算出第l层的$W^l,b^l$的梯度如下:$$\frac{\partial J(W,b,x,y)}{\partial W^l} = \frac{\partial J(W,b,x,y)}{\partial z^l} \frac{\partial z^l}{\partial W^l} = \delta^{l}(a^{l-1})^T$$$$\frac{\partial J(W,b,x,y)}{\partial b^l} = \frac{\partial J(W,b,x,y)}{\partial z^l} \frac{\partial z^l}{\partial b^l} = \delta^{l}$$

    那么现在问题的关键就是要求出$ \delta^{l}$了。这里我们用数学归纳法,第$L$层的$\delta^{L}$上面我们已经求出, 假设第$l+1$层的$\delta^{l+1}$已经求出来了,那么我们如何求出第$l$层的$\delta^{l}$呢?我们注意到:$$\delta^{l} = \frac{\partial J(W,b,x,y)}{\partial z^l} = \frac{\partial J(W,b,x,y)}{\partial z^{l+1}}\frac{\partial z^{l+1}}{\partial z^{l}} = \delta^{l+1}\frac{\partial z^{l+1}}{\partial z^{l}}$$

    可见,用归纳法递推$\delta^{l+1}$和$\delta^{l}$的关键在于求解$\frac{\partial z^{l+1}}{\partial z^{l}}$。

    而$z^{l+1}$和$z^{l}$的关系其实很容易找出:$$z^{l+1}= W^{l+1}a^{l} + b^{l+1} = W^{l+1}\sigma(z^l) + b^{l+1} $$

    这样很容易求出:$$\frac{\partial z^{l+1}}{\partial z^{l}} = (W^{l+1})^T\odot \underbrace{(\sigma^{'}(z^l),..,\sigma^{'}(z^l))}_{n_{l+1}}$$

    将上式带入上面$\delta^{l+1}$和$\delta^{l}$关系式我们得到:$$\delta^{l} = \delta^{l+1}\frac{\partial z^{l+1}}{\partial z^{l}} = (W^{l+1})^T\delta^{l+1}\odot \sigma^{'}(z^l)$$

    现在我们得到了$\delta^{l}$的递推关系式,只要求出了某一层的$\delta^{l}$,求解$W^l,b^l$的对应梯度就很简单的。

3. DNN反向传播算法过程

    现在我们总结下DNN反向传播算法的过程。由于梯度下降法有批量(Batch),小批量(mini-Batch),随机三个变种,为了简化描述,这里我们以最基本的批量梯度下降法为例来描述反向传播算法。实际上在业界使用最多的是mini-Batch的梯度下降法。不过区别仅仅在于迭代时训练样本的选择而已。

    输入: 总层数L,以及各隐藏层与输出层的神经元个数,激活函数,损失函数,迭代步长$\alpha$,最大迭代次数MAX与停止迭代阈值$\epsilon$,输入的m个训练样本$\{(x_1,y_1), (x_2,y_2), ..., (x_m,y_m)\}$

    输出:各隐藏层与输出层的线性关系系数矩阵$W$和偏倚向量$b$

    1) 初始化各隐藏层与输出层的线性关系系数矩阵$W$和偏倚向量$b$的值为一个随机值。

      2)for iter to 1 to MAX:

    2-1) for i =1 to m:

      a) 将DNN输入$a^1$设置为$x_i$

      b) for $l$=2 to L,进行前向传播算法计算$a^{i,l} = \sigma(z^{i,l}) = \sigma(W^la^{i,l-1} + b^l)$

      c) 通过损失函数计算输出层的$\delta^{i,L}$

      d) for $l$= L to 2, 进行反向传播算法计算$\delta^{i,l} =  (W^{l+1})^T\delta^{i,l+1}\odot \sigma^{'}(z^{i,l})$

    2-2) for $l$ = 2 to L,更新第$l$层的$W^l,b^l$:$$W^l = W^l -\alpha \sum\limits_{i=1}^m \delta^{i,l}(a^{i, l-1})^T $$$$b^l = b^l -\alpha \sum\limits_{i=1}^m \delta^{i,l}$$

    2-3) 如果所有$W,b$的变化值都小于停止迭代阈值$\epsilon$,则跳出迭代循环到步骤3。

    3) 输出各隐藏层与输出层的线性关系系数矩阵$W$和偏倚向量$b$。

4. DNN反向传播算法小结

    有了DNN反向传播算法,我们就可以很方便的用DNN的模型去解决第一节里面提到了各种监督学习的分类回归问题。当然DNN的参数众多,矩阵运算量也很大,直接使用会有各种各样的问题。有哪些问题以及如何尝试解决这些问题并优化DNN模型与算法,我们在下一篇讲。

(欢迎转载,转载请注明出处。欢迎沟通交流: liujianping-ok@163.com) 

参考资料:

1) Neural Networks and Deep Learning by By Michael Nielsen

2) Deep Learning, book by Ian Goodfellow, Yoshua Bengio, and Aaron Courville

3) UFLDL Tutorial

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大学生计算机视觉学习DeepLearning

转-------基于R-CNN的物体检测

原文地址:http://blog.csdn.net/hjimce/article/details/50187029

9220
来自专栏CSDN技术头条

卷积神经网络CNN

本文学习笔记的部分内容参考zouxy09的博客,谢谢! http://blog.csdn.net/zouxy09/article/details/8775360...

33270
来自专栏计算机视觉战队

每日一学 | 线性分类笔记(上)

图像分类的任务,就是从已有的固定分类标签集合中选择一个并分配给一张图像。我们还介绍了k-Nearest Neighbor (k-NN)分类器,该分类器的基本思想...

9510
来自专栏人工智能

第四课反向传播算法与神经网络(一)

Stanford深度学习课程第四课反向传播算法与神经网络(一) 预备知识 我们不直接介绍课程内容,首先介绍一些预备知识,这样可以更好的理解课程内容。下面我们介绍...

23360
来自专栏企鹅号快讯

深度学习之卷积神经网络

纵观过去两年,“深度学习”领域已经呈现出巨大发展势头。在计算机视觉领域,深度学习已经有了较大进展,其中卷积神经网络是运用最早和最广泛的深度学习模型,所以今天就和...

24580
来自专栏机器人网

卷积神经网络概念与原理

受Hubel和Wiesel对猫视觉皮层电生理研究启发,有人提出卷积神经网络(CNN),Yann Lecun 最早将CNN用于手写数字识别并一直保持...

13720
来自专栏人工智能LeadAI

基于深度卷积神经网络进行人脸识别的原理是什么?

我这里简单讲下OpenFace中实现人脸识别的pipeline,这个pipeline可以看做是使用深度卷积网络处理人脸问题的一个基本框架,很有学习价值。 它的...

50880
来自专栏AI研习社

看了这篇文章,了解深度卷积神经网络在目标检测中的进展

近些年来,深度卷积神经网络(DCNN)在图像分类和识别上取得了很显著的提高。回顾从 2014 到 2016 这两年多的时间,先后涌现出了 R-CNN,Fast ...

29980
来自专栏深度学习思考者

机器学习中常见问题_几种梯度下降法

一、梯度下降法   在机器学习算法中,对于很多监督学习模型,需要对原始的模型构建损失函数,接下来便是通过优化算法对损失函数进行优化,以便寻找到最优的参数。在求解...

35380
来自专栏重庆的技术分享区

吴恩达-神经网络和深度学习( 第三周 浅层神经网络:)

18840

扫码关注云+社区

领取腾讯云代金券