前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >《深度学习Ng》课程学习笔记02week2——优化算法

《深度学习Ng》课程学习笔记02week2——优化算法

作者头像
小爷毛毛_卓寿杰
发布2018-04-18 16:47:52
4790
发布2018-04-18 16:47:52
举报
文章被收录于专栏:Soul Joy HubSoul Joy Hub

http://blog.csdn.net/u011239443/article/details/78066082

2.1 Mini-batch 梯度下降法

2.2 理解 mini-batch 梯度下降法

2.3 指数加权平均

对温度做指数加权平均曲线:

β = 0.98 时,会得到更加平缓的曲线,如图绿色。 β = 0.5 时,会得到更加波动的曲线,如图黄色。

2.4 理解指数加权平均

2.5 指数加权平均的偏差修正

当在训练刚刚开始的时候,v会很小,为了修正这种偏差,我们可以使用以下方法:

2.6 动量梯度下降法(momentun)

梯度下降中,随着迭代次数的增加,我们需要将变化的幅度越来越小。这就使用到了动量梯度下降法:

之所以叫动量梯度下降法,是因为从另外一个角度看,是在改变下降的速度:

v’ = 摩擦力影响比率*原来速度v + 加速

2.7 RMSprop

2.8 Adam 优化算法

Adam 就是 momentun 和 RMSprop的结合:

2.9 学习率衰减

减小幅度还可以用学习率衰减:

2.10 局部最优的问题

当特征维度非常大时,我们的最优化问题通常不是一个局部极小点或者局部极大点,而是鞍点。 当 Hessian 是正定的(所有特征值都是正的),则该临界点是局部极小点。当 Hessian 是负定的(所有特征值都是负的),这个点就是局部极大点。在多维情况下,实际上我们可以找到确定该点是否为鞍点的积极迹象(某些情况下)。如果 Hessian 的特征值中至少一个是正的且至少一个是负的,那么 x 是 f 某个横截面的局部极大点,却是另一个横截面的局部极小点。

走去鞍点的平缓区的方法是使用如Adam、momentun 和 RMSprop算法。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017年09月22日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 2.1 Mini-batch 梯度下降法
  • 2.2 理解 mini-batch 梯度下降法
  • 2.3 指数加权平均
  • 2.4 理解指数加权平均
  • 2.5 指数加权平均的偏差修正
  • 2.6 动量梯度下降法(momentun)
  • 2.7 RMSprop
  • 2.8 Adam 优化算法
  • 2.9 学习率衰减
  • 2.10 局部最优的问题
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档