前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >为什么局部下降最快的方向就是梯度的负方向?

为什么局部下降最快的方向就是梯度的负方向?

作者头像
红色石头
发布2019-05-25 22:58:12
1.2K0
发布2019-05-25 22:58:12
举报

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/red_stone1/article/details/80212814

红色石头的个人网站:redstonewill.com

这里写图片描述
这里写图片描述

什么是梯度?

对于梯度下降算法(Gradient Descent Algorithm),我们都已经很熟悉了。无论是在线性回归(Linear Regression)、逻辑回归(Logistic Regression)还是神经网络(Neural Network)等等,都会用到梯度下降算法。我们先来看一下梯度下降算法的直观解释:

假设我们位于黄山的某个山腰处,山势连绵不绝,不知道怎么下山。于是决定走一步算一步,也就是每次沿着当前位置最陡峭最易下山的方向前进一小步,然后继续沿下一个位置最陡方向前进一小步。这样一步一步走下去,一直走到觉得我们已经到了山脚。这里的下山最陡的方向就是梯度的负方向。

首先理解什么是梯度?通俗来说,梯度就是表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在当前位置的导数。

∇=df(θ)dθ∇=df(θ)dθ

\nabla=\frac{df(\theta)}{d\theta}

上式中,θθ\theta是自变量,f(θ)f(θ)f(\theta)是关于θθ\theta的函数,θθ\theta表示梯度。

梯度下降算法

如果函数f(θ)f(θ)f(\theta)是凸函数,那么就可以使用梯度下降算法进行优化。梯度下降算法的公式我们已经很熟悉了:

θ=θ0−η⋅∇f(θ0)θ=θ0−η⋅∇f(θ0)

\theta=\theta_0-\eta\cdot\nabla f(\theta_0)

其中,θ0θ0\theta_0是自变量参数,即下山位置坐标,ηη\eta是学习因子,即下山每次前进的一小步(步进长度),θθ\theta是更新后的θ0θ0\theta_0,即下山移动一小步之后的位置。

梯度下降算法的公式非常简单!但是”沿着梯度的反方向(坡度最陡)“是我们日常经验得到的,其本质的原因到底是什么呢?为什么局部下降最快的方向就是梯度的负方向呢?也许很多朋友还不太清楚。没关系,接下来我将以通俗的语言来详细解释梯度下降算法公式的数学推导过程。

一阶泰勒展开式

这里需要一点数学基础,对泰勒展开式有些了解。简单地来说,泰勒展开式利用的就是函数的局部线性近似这个概念。我们以一阶泰勒展开式为例:

f(θ)≈f(θ0)+(θ−θ0)⋅∇f(θ0)f(θ)≈f(θ0)+(θ−θ0)⋅∇f(θ0)

f(\theta)\approx f(\theta_0)+(\theta-\theta_0)\cdot\nabla f(\theta_0)

不懂上面的公式?没有关系。我用下面这张图来解释。

这里写图片描述
这里写图片描述

凸函数f(θ)f(θ)f(\theta)的某一小段[θ0,θ][θ0,θ][\theta_0,\theta]由上图黑色曲线表示,可以利用线性近似的思想求出f(θ)f(θ)f(\theta)的值,如上图红色直线。该直线的斜率等于f(θ)f(θ)f(\theta)在θ0θ0\theta_0处的导数。则根据直线方程,很容易得到f(θ)f(θ)f(\theta)的近似表达式为:

f(θ)≈f(θ0)+(θ−θ0)⋅∇f(θ0)f(θ)≈f(θ0)+(θ−θ0)⋅∇f(θ0)

f(\theta)\approx f(\theta_0)+(\theta-\theta_0)\cdot\nabla f(\theta_0)

这就是一阶泰勒展开式的推导过程,主要利用的数学思想就是曲线函数的线性拟合近似。

梯度下降数学原理

知道了一阶泰勒展开式之后,接下来就是重点了!我们来看一下梯度下降算法是如何推导的。

先写出一阶泰勒展开式的表达式:

f(θ)≈f(θ0)+(θ−θ0)⋅∇f(θ0)f(θ)≈f(θ0)+(θ−θ0)⋅∇f(θ0)

f(\theta)\approx f(\theta_0)+(\theta-\theta_0)\cdot\nabla f(\theta_0)

其中,θ−θ0θ−θ0\theta-\theta_0是微小矢量,它的大小就是我们之前讲的步进长度ηη\eta,类比于下山过程中每次前进的一小步,ηη\eta为标量,而θ−θ0θ−θ0\theta-\theta_0的单位向量用vvv表示。则θ−θ0θ−θ0\theta-\theta_0可表示为:

θ−θ0=ηvθ−θ0=ηv

\theta-\theta_0=\eta v

特别需要注意的是,θ−θ0θ−θ0\theta-\theta_0不能太大,因为太大的话,线性近似就不够准确,一阶泰勒近似也不成立了。替换之后,f(θ)f(θ)f(\theta)的表达式为:

f(θ)≈f(θ0)+ηv⋅∇f(θ0)f(θ)≈f(θ0)+ηv⋅∇f(θ0)

f(\theta)\approx f(\theta_0)+\eta v\cdot\nabla f(\theta_0)

重点来了,局部下降的目的是希望每次θθ\theta更新,都能让函数值f(θ)f(θ)f(\theta)变小。也就是说,上式中,我们希望f(θ)<f(θ0)f(θ)<f(θ0)f(\theta)<f(\theta_0)。则有:

f(θ)−f(θ0)≈ηv⋅∇f(θ0)<0f(θ)−f(θ0)≈ηv⋅∇f(θ0)<0

f(\theta)-f(\theta_0)\approx\eta v\cdot\nabla f(\theta_0)<0

因为ηη\eta为标量,且一般设定为正值,所以可以忽略,不等式变成了:

v⋅∇f(θ0)<0v⋅∇f(θ0)<0

v\cdot\nabla f(\theta_0)<0

上面这个不等式非常重要!vvv和∇f(θ0)∇f(θ0)\nabla f(\theta_0)都是向量,∇f(θ0)∇f(θ0)\nabla f(\theta_0)是当前位置的梯度方向,vvv表示下一步前进的单位向量,是需要我们求解的,有了它,就能根据θ−θ0=ηvθ−θ0=ηv\theta-\theta_0=\eta v确定θθ\theta值了。

想要两个向量的乘积小于零,我们先来看一下两个向量乘积包含哪几种情况:

这里写图片描述
这里写图片描述

AAA和BBB均为向量,αα\alpha为两个向量之间的夹角。AAA和BBB的乘积为:

A⋅B=||A||⋅||B||⋅cos(α)A⋅B=||A||⋅||B||⋅cos(α)

A\cdot B=||A||\cdot||B||\cdot cos(\alpha)

||A||||A||||A||和||B||||B||||B||均为标量,在||A||||A||||A||和||B||||B||||B||确定的情况下,只要cos(α)=−1cos(α)=−1cos(\alpha)=-1,即AAA和BBB完全反向,就能让AAA和BBB的向量乘积最小(负最大值)。

顾名思义,当vvv与∇f(θ0)∇f(θ0)\nabla f(\theta_0)互为反向,即vvv为当前梯度方向的负方向的时候,能让v⋅∇f(θ0)v⋅∇f(θ0)v\cdot\nabla f(\theta_0)最大程度地小,也就保证了vvv的方向是局部下降最快的方向。

知道vvv是∇f(θ0)∇f(θ0)\nabla f(\theta_0)的反方向后,可直接得到:

v=−∇f(θ0)||∇f(θ0)||v=−∇f(θ0)||∇f(θ0)||

v=-\frac{\nabla f(\theta_0)}{||\nabla f(\theta_0)||}

之所以要除以∇f(θ0)∇f(θ0)\nabla f(\theta_0)的模||∇f(θ0)||||∇f(θ0)||||\nabla f(\theta_0)||,是因为vvv是单位向量。

求出最优解vvv之后,带入到θ−θ0=ηvθ−θ0=ηv\theta-\theta_0=\eta v中,得:

θ=θ0−η∇f(θ0)||∇f(θ0)||θ=θ0−η∇f(θ0)||∇f(θ0)||

\theta=\theta_0-\eta\frac{\nabla f(\theta_0)}{||\nabla f(\theta_0)||}

一般地,因为||∇f(θ0)||||∇f(θ0)||||\nabla f(\theta_0)||是标量,可以并入到步进因子ηη\eta中,即简化为:

θ=θ0−η∇f(θ0)θ=θ0−η∇f(θ0)

\theta=\theta_0-\eta\nabla f(\theta_0)

这样,我们就推导得到了梯度下降算法中θθ\theta的更新表达式。

总结

我们通过一阶泰勒展开式,利用线性近似和向量相乘最小化的思想搞懂了梯度下降算法的数学原理。也许你之前很熟悉梯度下降算法,但也许对它的推导过程并不清楚。看了本文,你是否有所收获呢?

更多机器学习资源,请关注公众号:AI有道(ID:redstonewill)

这里写图片描述
这里写图片描述
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018年05月06日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 什么是梯度?
  • 梯度下降算法
  • 一阶泰勒展开式
  • 梯度下降数学原理
  • 总结
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档