机器学习优化算法——梯度下降

在机器学习算法中,优化算法有很多,其中梯度下降法是个重头戏,如果说理解不到梯度下降法的原理,那很多算法的核心都难以掌握,今天我们就来谈谈何为“梯度下降法”。

我们首先来看一个例子。假设以下曲线是一损失函数L(w)的分布,求函数L(w)的极小值。一般地,如果函数复杂度不高,可以直接用求导令导数为0的方式求得(如果不懂如何求导可以自行翻阅数学课本)。但这种方式在函数复杂度较高时,方程变得难以解开,此时就需要寻找其他求解方法,求导取0的方法都用不了,难道要用穷举法?没错,就是要用穷举法来求解损失函数L(w)的最小值,只不过这个“穷举法”有点特殊,我们要给穷举法一个搜索的方向;如果是求解最大值,就往上搜索,反之若是求解最小值,就顺着函数梯度方向往下搜索。

这里的梯度很容易理解,就像我们爬山的时候一样,山坡倾斜的程度就相当于梯度,倾斜程度越高(陡峭的山坡)则梯度的绝对值越大;倾斜程度越低(平坦的草地),梯度的绝对值越小。

现在开始进入主题,如何沿着山坡到达低谷(找到极小值)?假设步长为,函数L(w)在点梯度为,点为我们的起始点,那么下一个落脚点为:

(1)

为我们一步所走的路程。式(1)设计得非常巧妙,令梯度,梯度越大,说明前面一段路都是比较陡的,还有一段路才能到达低谷,所以我们下次走的步伐可以更大一些;梯度越小,说明前面的坡度比较平坦,可能就到低谷了,为了避免一步很大而走错过低谷,应该降低步伐大小。

步长()决定了每次跨一步所走距离的大小,如果设置比较小,那我们一步走的距离就很短,可能走到天黑都还没到低谷;如果设置得比较大,我们一脚跨过一个山峰,很可能就错过了低谷。因此步长的设置比较关键,但本文暂不讨论,调参时可以将其设为0.1

知道了怎么走之后,我们就能沿着的方向开始行进了,那么终点在哪里呢?很明显,当我们到达低谷时,低谷的梯度倾向于平坦。如下图:

为了避免错过低谷,我们可以在低谷附近停下来就行了。设容差为,即当

上文是以L(w)为例(w为一元的形式)阐述了梯度下降方法的基本原理,但实际上要优化的函数其复杂度要比文中的L(w)复杂得多,但万变不离其宗,复杂的L(W)也是可以应用梯度下降的原理来取得最优值的。

本文来自企鹅号 - ML机器学习媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能LeadAI

通俗易懂丨深度学习如何入门

? 作者:Jacky Yang(知乎) 关于深度学习,网上的资料很多,不过貌似大部分都不太适合初学者。 这里有几个原因: 1.深度学习确实需要一定的数学基础...

33910
来自专栏机器之心

专栏 | 为模型减减肥:谈谈移动/嵌入式端的深度学习

机器之心专栏 作者:李飞 本文为机器之心矽说专栏系列文章之一,对模型压缩进行了深度解读。 1. 为什么要为深度学习模型减肥 随着深度学习的发展,神经网络模...

4328
来自专栏机器学习算法工程师

深入浅出——基于密度的聚类方法

作者 祝烨 编辑 (没脸) “The observation of and the search forsimilarities an...

3608
来自专栏机器之心

计算语言顶会ACL 2018最佳论文公布!这些大学与研究员榜上有名

1. Finding syntax in human encephalography with beam search(尚未公开)

1280
来自专栏CVer

[计算机视觉论文速递] ECCV 2018 专场3

Amusi 将日常整理的论文都会同步发布到 daily-paper-computer-vision 上。名字有点露骨,还请见谅。喜欢的童鞋,欢迎star、for...

800
来自专栏机器学习算法工程师

一种简单有效的网络结构搜索

这篇文章主要介绍了一种方法用于解决网络结构搜索中,搜索空间过大且训练时间过长,算力要求过高的问题。运用了爬山算法来搜索优秀的网络结构,主要是用了一个很nb的技术...

1291
来自专栏大数据挖掘DT机器学习

用R语言写个贝叶斯模型 预测我的妻子是否怀孕

在2015年的二月21日,我的妻子已经33天没有来月经了,她怀孕了,这真是天大的好消息! 通常月经的周期是大约一个月,如果你们夫妇打算怀孕,那么月经没来或许是一...

3289
来自专栏AI科技大本营的专栏

资源 | 一文掌握机器学习所有值得看的视频、课程、工具

越来越多的开发者和学习者转投人工智能,但很多人鉴于跨行的难度,并不知道如何开始学习人工智能和机器学习。本文是作者Arun Agrahri整理的一些优秀文章,内容...

35810
来自专栏AI研习社

让深度学习帮你创作爵士乐

数学与音乐有着内在的联系。 用算法作曲的历史,可以追溯到计算机科学出现的初期。翻译模型可以把一张图片转译为音乐。这都是基于规则的:如果图片里有一条水平的线,就会...

3528
来自专栏AI科技大本营的专栏

资源 | 8张思维导图帮你梳理深度学习&机器学习多个知识点

整理 | suiling 本文是对作者@Daniel Martinez(https://twitter.com/danielmartinezf)在GitHub上...

3835

扫码关注云+社区

领取腾讯云代金券