反向传播算法

文章来源：企鹅号 - 算法入门

最近在看博客的时候想不起来bp算法和梯度下降的区别。这两个好像是一个东西？但是又ng课程上的梯度下降那两个公式(如下图)和bp算法也没关啊。于是百度，得知bp算法是用来求导数的方法，就是链式法则的应用。

链式法则

先举一个例子：我们以求e=(a+b)*(b+1)的偏导[3]为例。它的复合关系画出图可以表示如下：

在图中，引入了中间变量c,d。在图中，引入了中间变量c,d。为了求出a=2, b=1时，e的梯度，我们可以先利用偏导数的定义求出不同层之间相邻节点的偏导关系，如下图所示。

利用链式法则我们知道：

以及

链式法则在上图中的意义是什么呢？其实不难发现，的值等于从a到e的路径上的偏导值的乘积，而的值等于从b到e的路径1(b-c-e)上的偏导值的乘积加上路径2(b-d-e)上的偏导值的乘积。也就是说，对于上层节点p和下层节点q，要求得，需要找到从q节点到p节点的所有路径，并且对每条路径，求得该路径上的所有偏导数之乘积，然后将所有路径的 “乘积” 累加起来才能得到的值。

大家也许已经注意到，这样做是十分冗余的，因为很多路径被重复访问了。比如上图中，a-c-e和b-c-e就都走了路径c-e。对于权值动则数万的深度模型中的神经网络，这样的冗余所导致的计算量是相当大的。

同样是利用链式法则，BP算法则机智地避开了这种冗余，它对于每一个路径只访问一次就能求顶点对所有下层节点的偏导值。

正如反向传播(BP)算法的名字说的那样，BP算法是反向(自上往下)来寻找路径的。从最上层的节点e开始，初始值为1，以层为单位进行处理。对于e的下一层的所有子节点，将1乘以e到某个节点路径上的偏导值，并将结果“堆放”在该子节点中。等e所在的层按照这样传播完毕后，第二层的每一个节点都“堆放”些值，然后我们针对每个节点，把它里面所有“堆放”的值求和，就得到了顶点e对该节点的偏导。然后将这些第二层的节点各自作为起始顶点，初始值设为顶点e对它们的偏导值，以”层”为单位重复上述传播过程，即可求出顶点e对每一层节点的偏导数。

以上图为例，节点c接受e发送的12并堆放起来，节点d接受e发送的13并堆放起来，至此第二层完毕，求出各节点总堆放量并继续向下一层发送。节点c向a发送21并对堆放起来，节点c向b发送21并堆放起来，节点d向b发送31并堆放起来，至此第三层完毕，节点a堆放起来的量为2，节点b堆放起来的量为21+3*1=5, 即顶点e对b的偏导数为5.

参考博客神经网络-BP，更新参数策略

一个神经网络例子

如上图，截选自谷歌机器学习教程。只需3个公式，你就可以搞懂反向传播算法....so easy

《一文弄懂神经网络中的反向传播法——BackPropagation》http://www.cnblogs.com/charlotte77/p/5629865.html这篇博客写的不错..

欢迎关注:)

发表于: 2018-03-112018-03-11 21:05:43
原文链接：http://kuaibao.qq.com/s/20180312G1SOA800?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

反向传播算法

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐