梯度检验与高级优化

梯度检验与高级优化

导读

神经网络

反向传播算法

目录

  1. 关键词
  2. 梯度检验与高级优化

1

关键词

缺位错误 off-by-one error

偏置项 bias term

数值检验 numerically checking

数值舍入误差 numerical roundoff errors

有效数字 significant digits

组合扩展 unrolling

学习率 learning rate

汉森矩阵 Hessian matrix

牛顿法 Newton's method

共轭梯度 conjugate gradient

步长值 step-size

2

梯度检验与高级优化

众所周知,反向传播算法很难调试得到正确结果,尤其是当实现程序存在很多难于发现的bug时。举例来说,索引的缺位错误(off-by-one error)会导致只有部分层的权重得到训练,再比如忘记计算偏置项。这些错误会使你得到一个看似十分合理的结果(但实际上比正确代码的结果要差)。因此,但从计算结果上来看,我们很难发现代码中有什么东西遗漏了。本节中,我们将介绍一种对求导结果进行数值检验的方法,该方法可以验证求导代码是否正确。另外,使用本节所述求导检验方法,可以帮助你提升写正确代码的信心。

缺位错误举例:

比如 for循环中循环m 次,正确应该是 for(i = 1; i<= m; i++),但有时程序员疏忽,会写成for(i = 1; i< m; i++),这就是缺位错误。

假设我们想要最小化以θ为自变量的目标函数J(θ)。假设J : R----> R ,则θ ---->R 。在一维的情况下,一次迭代的梯度下降公式是:

再假设我们已经用代码实现了计算 J(θ)导数的函数 ,接着我们使用 θ :=θ-a*g(θ)来实现梯度下降算法。那么我们如何检验 的实现是否正确呢?

回忆倒数的数学定义:

那么对于任意的θ值,我们都可以实现等式左边的倒数用:

来近似。

实际应用中,我们常将EPSILON 设为一个很小的常量,比如在10^[-4] 数量级(虽然EPSILON 的取值范围可以很大,但是我们不会将它设得太小,比如 10^[-20],因为那将导致数值舍入误差。)

给定一个被认为能计算 J(θ)导数 的函数,我们可以用下面的数值检验公式:

计算两端是否一样来检验函数是否正确。

上式两端值的接近程度取决于J 的具体形式。但是在假定EPSILON = 10^[-4] 的情况下,你通常会发现上式左右两端至少有4位有效数字是一样的(通常会更多)。

现在,考虑θ--->R[^n] 是一个向量而非一个实数(那么就有n个参数要学习得到),并且 J : R[^n]--->R。在神经网络的例子里我们使用 J(W, b),可

以想象为把参数W, b 组合扩展成一个长向量θ 。现在我们将求导检验方法推广到一般化,即θ 是一个向量的情况。

假设我们有一个用于计算J(θ)导数 的函数 ;我们想要检验y[i] 是否输出正确的求导结果。我们定义

其中

是第i个基向量(维度和θ相同,在第i行为“1”, 其他行为“0”)。所以θ[^(i+)]几乎和θ相同,除了第i 行元素增加了EPSILON。类似的,θ[^(i-)] = θ - EPSILON *e[i]。得到的第i行减小EPSILON,然后我们可以对每个i检验侠士是否成立,进而验证g[i](θ)的正确性:

当用反射传播算法求解神经网络时,正确算法实现会得到:

以上结果与反向传播算法中的最后一段伪代码一致,都是计算梯度下降。为了验证梯度下降代码的正确性,使用上述数值检验方法计算J(W,b) 的导数,然后验证

是否能够给出正确的求导结果。

迄今为止,我们的讨论都集中在使用梯度下降法来最小化J(θ) 。如果你已经实现了一个计算J(θ) 和 J(θ) 差值的函数,那么其实还有更精妙的算法来最小化J(θ) 。举例来说,可以想象这样一个算法:它使用梯度下降,并能够自动调整学习速率a ,以得到合适的步长值,最终使 θ 能够快速收敛到一个局部最优解。还有更妙的算法:比如可以寻找一个Hessian矩阵的近似,得到最佳步长值,使用该步长值能够更快地收敛到局部最优(和牛顿法类似)。此类算法的详细讨论已超出了这份讲义的范围,但是L-BFGS算法我们以后会有论述(另一个例子是共轭梯度算法)。你将在编程练习里使用这些算法中的一个。使用这些高级优化算法时,你需要提供关键的函数:即对于任一个 θ ,需要你计算出J(θ) 和J(θ) 偏差 。之后,这些优化算法会自动调整学习速率/步长值 a的大小(并计算Hessian近似矩阵等等)来自动寻找 J(θ) 最小化时 θ 的值。诸如L-BFGS和共轭梯度算法通常比梯度下降法快很多。

原文发布于微信公众号 - 机器学习算法与Python学习(guodongwei1991)

原文发表时间:2017-01-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

一文看懂自动驾驶中应用的机器学习算法

安妮 唐旭 编译自 KDnuggets 量子位出品 | 公众号 QbitAI 机器学习算法已经被广泛应用于自动驾驶各种解决方案,电控单元中的传感器数据处理大大提...

35970
来自专栏机器之心

训练深度神经网络失败的罪魁祸首不是梯度消失,而是退化

27850
来自专栏SIGAI学习与实践平台

【SIGAI综述】行人检测算法

行人检测是计算机视觉中的经典问题,也是长期以来难以解决的问题。和人脸检测问题相比,由于人体的姿态复杂,变形更大,附着物和遮挡等问题更严重,因此准确的检测处于各种...

63320
来自专栏SIGAI学习与实践平台

视觉多目标跟踪算法综述(上)-附开源代码下载链接整理

目标跟踪是机器视觉中一类被广为研究的重要问题,分为单目标跟踪与多目标跟踪。前者跟踪视频画面中的单个目标,后者则同时跟踪视频画面中的多个目标,得到这些目标的运动轨...

1.3K20
来自专栏量子位

一文看懂迁移学习:怎样用预训练模型搞定深度学习?

瀚宸 编译自 Analytics Vidhya 量子位 出品 | 公众号 QbitAI 引言 跟传统的监督式机器学习算法相比,深度神经网络目前最大的劣势是什么?...

1.1K50
来自专栏机器学习AI算法工程

数据挖掘分类方法小结

分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在...

38370
来自专栏计算机视觉战队

非神经网络的深度模型

---- 深度学习最大的贡献,个人认为就是表征学习(representation learning),通过端到端的训练,发现更好的features,而后面用于...

32990
来自专栏大数据文摘

超实用总结:AI实践者需要用到的10个深度学习方法

13840
来自专栏机器之心

入门 | 神经网络训练中,Epoch、Batch Size和迭代傻傻分不清?

选自Medium 机器之心编译 参与:刘晓坤 你肯定经历过这样的时刻,看着电脑屏幕抓着头,困惑着:「为什么我会在代码中使用这三个术语,它们有什么区别吗?」因为它...

450110
来自专栏机器学习算法工程师

AI从业者搞懂---这10种深度学习方法---老婆孩子热炕头

作者:王抒伟 编辑:王抒伟 首先,让我们来看看主要有啥 1 1.机器学习 过去的十年里已经爆炸了。 大伙几乎每天都会在计算机科学计划,行业会议和各大公众号看到...

48780

扫码关注云+社区

领取腾讯云代金券