首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >SGD与Adam优化澄清

SGD与Adam优化澄清
EN

Data Science用户
提问于 2020-06-10 17:04:35
回答 1查看 3K关注 0票数 4

亚当的报纸,我需要一些澄清。

它指出SGD优化以相同的学习速率更新参数(即在整个训练过程中不发生变化)。他们认为Adam是不同的,因为学习速度是可变的(适应性的),并且在训练过程中会发生变化。

这是亚当(在大多数情况下)比SGD表现更好的主要区别吗?此外,它指出,它是计算上更便宜,这怎么能考虑到它似乎比SGD更复杂?

我希望我的问题是清楚的!

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-08-03 23:00:33

在我见过的许多应用程序中(例如,GANs),\beta_1被设置为0,因此m_1=g_1,即更新规则的分子与SGD中的分子是相同的。这就留下了两个主要的差异,两者都与第二时刻的MA有关:

  1. 第二矩的v_t:原始MA是一个梯度正规化器,它将梯度除以梯度的移动平均值的平方根。
  2. 1-\beta_2。为了减少偏倚,\sqrt{v_t}也被\sqrt{1-\beta_2^t}除以。下面是本文第3节中梯度平方\mathbf{E}[\big(\frac{\partial E}{\partial w_t}\big)^2]的期望的推导。本质上是\mathbf{E}v_t = (1-\beta^t_2)\mathbf{E}[\big(\frac{\partial E}{\partial w_t}\big)^2] + \varepsilon, ,因此出现了表达式。在早期的培训中,MAs与0很接近,\sqrt{1-\beta_2}的部门帮助我们远离它。

在概率和统计中,矩是指形式\mathbf{E}X^k的未输入表达式,移动平均值估计,因此名。规范化允许梯度调整,因此可以更好地更新参数。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/75794

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档