机器学习(四) ——梯度下降算法解释以及求解θ

机器学习(四)——梯度下降算法解释以及求解θ

(原创内容,转载请注明来源,谢谢)

(本文接 机器学习(二) 的内容)

一、解释梯度算法

梯度算法公式以及简化的代价函数图,如上图所示。

1)偏导数

由上图可知,在a点,其偏导数小于0,故θ减去小于0的数,相当于加上一个数。另外,从图上可以看出,在a点不是最佳点,需要继续向右移动,即a需要增加。因此符合要求。

对于在b点,可以同理得到需要减少的结果。

2)学习速率α

α表示点移动向最小值点的速率,α取值需要注意。

当值太大,每次移动的距离太长,可能导致在最小值点附近时,移动会超出最小值点的位置,导致不断的在大于、小于最小值点的位置偏移,无法收敛;

当值太小,移动速度非常慢,会导致程序执行时间太久。

另外,由于在越接近最小值点,偏导数的数量值(绝对值)越小,因此变化速率本身就会变慢,因此选定α后,不需要再去调整数值,其自己会减慢速率。

二、梯度算法缺陷

由上图可知,对于有多个极小值点的代价函数,梯度算法只能取到局部最小值点,即函数的极小值点,但是没法保证该点就是最小值点。

三、求解θ

公式如上图所示,实质上就是求偏倒的结果。

不断的计算θ0和θ1,直到偏导数为0(或者设定小于某个阈值),则停止计算,此时的结果则是对于某个起始点的局部最优结果。

——written by linhxx 2017.12.28

原文发布于微信公众号 - 决胜机器学习(phpthinker)

原文发表时间:2017-12-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Ldpe2G的个人博客

Mxnet 实现图片快速风格化

1673
来自专栏Ldpe2G的个人博客

Mxnet 实现图片快速风格化

论文链接:Perceptual Losses for Real-Time Style Transfer and Super-Resolution

1607
来自专栏LhWorld哥陪你聊算法

【神经网络篇】--RNN递归神经网络初始与详解

由图可知,比如第二个节点的输入不仅依赖于本身的输入U1,而且依赖上一个节点的输入W0,U0,同样第三个节点依赖于前两个节点的输入,

1792
来自专栏fangyangcoder

Andrew Ng机器学习课程笔记(二)之逻辑回归

http://www.cnblogs.com/fydeblog/p/7364636.html

1113
来自专栏企鹅号快讯

TensorFlow 从入门到放弃(一):卷积神经网络与TensorFlow实现

IT 领域的三角不可能定律:质量编程、速度编程、廉价编程。 ——麦杰克 · 索伊 导读:从本质上讲,我们在做回归或者分类的时候,就是把数据映射到一个或多个离散标...

22910
来自专栏AI科技大本营的专栏

别磨叽,学完这篇你也是图像识别专家了

图像识别是当今深度学习的主流应用,而Keras是入门最容易、使用最便捷的深度学习框架,所以搞图像识别,你也得强调速度,不能磨叽。本文让你在最短时间内突破五个流行...

5297
来自专栏机器学习养成记

聚类(二):k-means算法(R&python)

聚类算法属于无监督的机器学习算法,即没有类别标签y,需要根据数据特征将相似的数据分为一组。k-means为聚类算法中最简单、常见的一种,通过计算距离,将相似性高...

3947
来自专栏人工智能

机器学习(四)——梯度下降算法解释以及求解

机器学习(四) ——梯度下降算法解释以及求解θ (原创内容,转载请注明来源,谢谢) (本文接机器学习(二)的内容) 一、解释梯度算法 ? 梯度算法公式以及简化的...

2175
来自专栏贾志刚-OpenCV学堂

VGG卷积神经网络模型解析

一:VGG介绍与模型结构 VGG全称是Visual Geometry Group属于牛津大学科学工程系,其发布了一些列以VGG开头的卷积网络模型,可以应用在人脸...

4244
来自专栏ATYUN订阅号

一文带你认识深度学习中不同类型的卷积

卷积(convolution)现在可能是深度学习中最重要的概念。靠着卷积和卷积神经网络(CNN),深度学习超越了几乎其它所有的机器学习手段。 ? 这篇文章将简要...

4319

扫码关注云+社区