专栏首页人工智能头条李理:自动梯度求解 反向传播算法的另外一种视角

李理:自动梯度求解 反向传播算法的另外一种视角

想了解人工智能背后的那些人、技术和故事 欢迎关注 人工智能头条

本系列文章面向深度学习研发者,希望通过Image Caption Generation,一个有意思的具体任务,深入浅出地介绍深度学习的知识。本系列文章涉及到很多深度学习流行的模型,如CNN,RNN/LSTM,Attention等。本文为第四篇。 作者:李理 目前就职于环信,即时通讯云平台和全媒体智能客服平台,在环信从事智能客服和智能机器人相关工作,致力于用深度学习来提高智能机器人的性能。 相关文章: 李理:从Image Caption Generation理解深度学习(part I) 李理:从Image Caption Generation理解深度学习(part II) 李理:从Image Caption Generation理解深度学习(part III)

前面我们讲过了反向传播算法的详细推导过程,大家可能会觉得有些复杂。事实上其实就是链式求导法则的应用。今天我们将会继续讨论这个问题,不过是从Computational Graphs的角度,也就是我们之前说过的自动求导(Automatic Differentiation or Reverse-mode Differentiation)。并且通过CS231n的Assignment2来学习使用这种方法,通过这种方法来实现一个多层的神经网络。

Calculus on Computational Graphs: Backpropagation

首先我们介绍一篇博客文章: https://colah.github.io/posts/2015-08-Backprop/ 基本是翻译过来,不过部分地方是我自己的理解,建议读者结合这篇文章一起阅读。

简介

反向传播算法是神经网络的核心算法,不过这个算法在不同的领域被多次”发现“过,因此有不同的名称。

计算图

Computational Graphs

考虑一个简单的函数 e=(a+b)∗(b+1)e=(a+b)∗(b+1) 。这个函数有两个操作(函数),加法和乘法。为了指代方便,我们引入两个中间变量,c和d。

  • c=a+b
  • d=b+1
  • e=c∗d

下面我们把它画成一个计算图,每一个操作是图中一个节点,最基本的变量a和b也是一个节点。每个节点和它的输入变量直接有一条边。比如d的输入变量是b,那么d和b直接就有一条边。

任何一个显示定义的函数(隐函数不行,不过我们定义的神经网络肯定不会通过隐函数来定义)都可以分解为一个有向无环图(树),其中叶子节点是最基本的无依赖的自变量,而中间节点是我们引入的中间变量,而树根就是我们的函数。比如上面的例子,计算图如下所示:

给定每一个自变量的值,我们可以计算最终的函数值,对应与神经网络就是feedforward计算。具体用”算法“怎么计算呢?首先因为计算图是一个有向无环图,因此我们可以拓扑排序,先是叶子节点a和b,他们的值已经给定,然后删除a和b出发的边,然后c和d没有任何未知依赖,可以计算,最后计算e。计算过程如下图:

计算图的导数计算

首先我们可以计算每条边上的导数,也就是边的终点对起点的导数,而且导数是在起点的取前向计算值时的导数,具体过程如图所示:

有些边的导数不依赖于输入的值,比如:

但是还有很多边的导数是依赖于输入值的,比如:

因为在“前向”计算的过程中,每个节点的值都计算出来了,所以边的计算很简单,也不需要按照什么的顺序。

不过我们一般比较感兴趣的是最终函数对某个自变量的导数,比如

根据链式法则,只要找到这两个节点的所有路径,然后把路径的边乘起来就得到这条边的值,然后把所有边加起来就可以了。

比如上面的例子b到e有两条路径:b->c->e和b->d->e,所以

如果用“链式”法则来写就是

路径反过来而已。

使用上面的方法,我们可以计算任何一个点(上面的变量)对另外一个点(上面的变量)的导数。不过我们一般的情况是计算树根对所有叶子的导数,当然我们可以使用上面的算法一个一个计算,但是这样会有很多重复的计算。

比如a->e的路径是 a->c->e,b->e有一条边是b->c->e,其中c->e是重复的【这个例子不太好,我们可以想像c->e是一条很长的路径】,每次都重复计算c->e这个“子”路径是多余的。我们可以从后往前计算,也就是每个节点都是存放树根变量(这个例子是e)对当前节点的导数(其实也就是树根到当前节点的所有路径的和)。

反向导数计算

计算流程文字描述如下: 首先还是对这个图进行拓扑排序,不过是反过来。 首先是

这个没什么好说的。 然后计算

然后计算

然后计算

计算

前向导数计算

如果我们需要计算每一个变量对某一个变量的导数,就可以使用前向计算的方法。不过我们的神经网络都是相反——计算某个一个变量(一般是损失函数)对所有变量的导数,所以这里就不详细介绍了。

至此,本系列文章的第四部分告一段落。在接下来的文章中,作者将为大家详细讲述关于Optimization、常见的深度学习框架/工具的使用方法、使用自动求导来实现多层神经网络等内容,敬请期待。

本文分享自微信公众号 - 人工智能头条(AI_Thinker),作者:李理

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-11-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何利用“图计算”实现大规模实时预测分析

    用户1737318
  • Softmax和交叉熵的深度解析和Python实现

    【导读】如果你稍微了解一点深度学习的知识或者看过深度学习的在线课程,你就一定知道最基础的多分类问题。当中,老师一定会告诉你在全连接层后面应该加上 Softmax...

    用户1737318
  • 聚焦和增强卷积神经网络

    用户1737318
  • 深度学习如何入门?

    关于深度学习,网上的资料很多,不过貌似大部分都不太适合初学者。 这里有几个原因: 深度学习确实需要一定的数学基础。如果不用深入浅出地方法讲,有些读者就会有畏难...

    zenRRan
  • 云计算是过去式了,接下来是边缘计算的时代?

    很多营销人员现在已经习惯于云计算带来的优势,但是新的技术发展趋势正在逐步出现,可能会破坏云计算,或者从根本上重新确定云计算如何在边缘运营,新的技术趋势是边缘计算...

    SDNLAB
  • 雾计算工作组发布雾计算参考架构

    OpenFog Consortium发布了其OpenFog参考架构,OpenFog的成员正在雾计算(fog computing)领域工作,雾计算是使用最终用户终...

    SDNLAB
  • 云计算,边缘计算和雾计算:了解每个计算的实际应用

    您的运营是建立在您自己的一般云基础设施,还是选择使用雾和边缘计算等更专业的工具,这些都取决于您的业务需求和抱负。

    静一
  • OpenStack更新用户名

    命令语法 openstack user set user_name --name username_new 样例 openstack user se...

    院长技术
  • WPF初体验

    逍遥剑客
  • TensorFlow是什么?怎么用?终于有人讲明白了

    导读:在开始使用TensorFlow之前,必须了解它背后的理念。该库很大程度上基于计算图的概念,除非了解它们是如何工作的,否则无法理解如何使用该库。本文将简要介...

    华章科技

扫码关注云+社区

领取腾讯云代金券