前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Adam优化算法

Adam优化算法

作者头像
Steve Wang
发布2019-05-26 15:07:49
9120
发布2019-05-26 15:07:49
举报
文章被收录于专栏:从流域到海域从流域到海域

Adam Optimization Algorithm.

Adam refer to Adaptive Moment estimation.

要看懂这篇博文,你需要先看懂:

整理并翻译自吴恩达深度学习系列视频: https://mooc.study.163.com/learn/2001281003?tid=2001391036#/learn/content?type=detail&id=2001701052&cid=2001694315 RMSprop and the Adam optimization algorithm, is one of those rare algorithms that has really stood up, and has been shown to work well across a wide range of deep learning architectures. And the Adam optimization algorithm is basically taking momentum and RMSprop and putting them together.

Adam优化算法

基本思想是把动量梯度下降RMSprop放在一起使用。

Adam优化算法计算方法

动量梯度下降部分:

vdw=β1vdw+(1−β1)dWv_{dw}=\beta_1 v_{dw}+(1-\beta_1)dWvdw​=β1​vdw​+(1−β1​)dW 即指数加权平均,下同。

vdb=β1vdb+(1−β1)dbv_{db}=\beta_1 v_{db}+(1-\beta_1)dbvdb​=β1​vdb​+(1−β1​)db

RMSprop部分:

Sdw=β2Sdw+(1−β2)dW2S_{dw}=\beta_2S_{dw}+(1-\beta_2)dW^2Sdw​=β2​Sdw​+(1−β2​)dW2<- element-wise 即平方版本的指数加权平均,下同

Sdb=β2Sdb+(1−β2)db2S_{db}=\beta_2S_{db}+(1-\beta_2)db^2Sdb​=β2​Sdb​+(1−β2​)db2 <- element-wise

起始bias修正:

vdwcorrect=vdw1−β1tv_{dw}^{correct}=\frac{v_{dw}}{1-\beta_1^t}vdwcorrect​=1−β1t​vdw​​

vdbcorrect=vdb1−β1tv_{db}^{correct}=\frac{v_{db}}{1-\beta_1^t}vdbcorrect​=1−β1t​vdb​​

Sdwcorrect=Sdw1−β2tS_{dw}^{correct}=\frac{S_{dw}}{1-\beta_2^t}Sdwcorrect​=1−β2t​Sdw​​

Sdbcorrect=Sdb1−β2tS_{db}^{correct}=\frac{S_{db}}{1-\beta_2^t}Sdbcorrect​=1−β2t​Sdb​​

更新parameter变成:

W=W−αvdwcorrect∗dWSdwcorrect+ϵW = W-\alpha \frac{v_{dw}^{correct}*dW}{\sqrt{S_{dw}^{correct}+\epsilon}}W=W−αSdwcorrect​+ϵ​vdwcorrect​∗dW​ 分子来自动量梯度下降 分母来自RMSprop 下同

b=b−αvdbcorrect∗dbSdbcorrect+ϵb = b-\alpha \frac{v_{db}^{correct}*db}{\sqrt{S_{db}^{correct}+\epsilon}}b=b−αSdbcorrect​+ϵ​vdbcorrect​∗db​

解释说明

Adam = adaptive moment estimation,自适应性炬估计。

β1\beta_1β1​计算的是导数的均值(使用加权指数平均)。这称为第一炬(the first moment)。

β2\beta_2β2​计算的是平方版本的指数加权平均。这称为第二炬(the second moment)。

这是Adam名称的由来,大家一般称之为:Adam Authorization Algorithm(Adam权威算法)。

默认参数值选取

  • α\alphaα 学习速率是你需要是调参的。
  • β1=0.9\beta_1=0.9β1​=0.9 -> (dw)(dw)(dw) moving average, weighted average. momentum light term.
  • β2=0.999\beta_2=0.999β2​=0.999 -> dw2dw^2dw2 -> (dw2)(dw^2)(dw2) RMSprop term. 0.999出自Adam paper,即该算法提出者。
  • ϵ=10−8\epsilon=10^{-8}ϵ=10−8 几乎没有人去调试这个值,大家都使用10−810^{-8}10−8
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018年12月05日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Adam优化算法
  • Adam优化算法计算方法
  • 解释说明
  • 默认参数值选取
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档