Adam优化算法

Steve Wang

发布于 2019-05-26 15:07:49

9500

发布于 2019-05-26 15:07:49

文章被收录于专栏：从流域到海域

Adam Optimization Algorithm.

Adam refer to Adaptive Moment estimation.

要看懂这篇博文，你需要先看懂：

整理并翻译自吴恩达深度学习系列视频： https://mooc.study.163.com/learn/2001281003?tid=2001391036#/learn/content?type=detail&id=2001701052&cid=2001694315 RMSprop and the Adam optimization algorithm, is one of those rare algorithms that has really stood up, and has been shown to work well across a wide range of deep learning architectures. And the Adam optimization algorithm is basically taking momentum and RMSprop and putting them together.

Adam优化算法

基本思想是把动量梯度下降和RMSprop放在一起使用。

Adam优化算法计算方法

动量梯度下降部分：

vdw=β1vdw+(1−β1)dWv_{dw}=\beta_1 v_{dw}+(1-\beta_1)dWvdw=β1vdw+(1−β1)dW 即指数加权平均，下同。

vdb=β1vdb+(1−β1)dbv_{db}=\beta_1 v_{db}+(1-\beta_1)dbvdb=β1vdb+(1−β1)db

RMSprop部分：

Sdw=β2Sdw+(1−β2)dW2S_{dw}=\beta_2S_{dw}+(1-\beta_2)dW^2Sdw=β2Sdw+(1−β2)dW2<- element-wise 即平方版本的指数加权平均，下同

Sdb=β2Sdb+(1−β2)db2S_{db}=\beta_2S_{db}+(1-\beta_2)db^2Sdb=β2Sdb+(1−β2)db2 <- element-wise

起始bias修正：

vdwcorrect=vdw1−β1tv_{dw}^{correct}=\frac{v_{dw}}{1-\beta_1^t}vdwcorrect=1−β1tvdw

vdbcorrect=vdb1−β1tv_{db}^{correct}=\frac{v_{db}}{1-\beta_1^t}vdbcorrect=1−β1tvdb

Sdwcorrect=Sdw1−β2tS_{dw}^{correct}=\frac{S_{dw}}{1-\beta_2^t}Sdwcorrect=1−β2tSdw

Sdbcorrect=Sdb1−β2tS_{db}^{correct}=\frac{S_{db}}{1-\beta_2^t}Sdbcorrect=1−β2tSdb

更新parameter变成：

W=W−αvdwcorrect∗dWSdwcorrect+ϵW = W-\alpha \frac{v_{dw}^{correct}*dW}{\sqrt{S_{dw}^{correct}+\epsilon}}W=W−αSdwcorrect+ϵvdwcorrect∗dW 分子来自动量梯度下降分母来自RMSprop 下同

b=b−αvdbcorrect∗dbSdbcorrect+ϵb = b-\alpha \frac{v_{db}^{correct}*db}{\sqrt{S_{db}^{correct}+\epsilon}}b=b−αSdbcorrect+ϵvdbcorrect∗db

解释说明

Adam = adaptive moment estimation，自适应性炬估计。

β1\beta_1β1计算的是导数的均值(使用加权指数平均)。这称为第一炬(the first moment)。

β2\beta_2β2计算的是平方版本的指数加权平均。这称为第二炬(the second moment)。

这是Adam名称的由来，大家一般称之为：Adam Authorization Algorithm(Adam权威算法)。

默认参数值选取

α\alphaα 学习速率是你需要是调参的。
β1=0.9\beta_1=0.9β1=0.9 -> (dw)(dw)(dw) moving average, weighted average. momentum light term.
β2=0.999\beta_2=0.999β2=0.999 -> dw2dw^2dw2 -> (dw2)(dw^2)(dw2) RMSprop term. 0.999出自Adam paper，即该算法提出者。
ϵ=10−8\epsilon=10^{-8}ϵ=10−8 几乎没有人去调试这个值，大家都使用10−810^{-8}10−8

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2018年12月05日，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

编程算法

登录后参与评论

0 条评论

热度