读亚当的报纸,我需要一些澄清。
它指出SGD优化以相同的学习速率更新参数(即在整个训练过程中不发生变化)。他们认为Adam是不同的,因为学习速度是可变的(适应性的),并且在训练过程中会发生变化。
这是亚当(在大多数情况下)比SGD表现更好的主要区别吗?此外,它指出,它是计算上更便宜,这怎么能考虑到它似乎比SGD更复杂?
我希望我的问题是清楚的!
发布于 2020-08-03 23:00:33
在我见过的许多应用程序中(例如,GANs),\beta_1被设置为0,因此m_1=g_1,即更新规则的分子与SGD中的分子是相同的。这就留下了两个主要的差异,两者都与第二时刻的MA有关:
在概率和统计中,矩是指形式\mathbf{E}X^k的未输入表达式,移动平均值估计,因此名。规范化允许梯度调整,因此可以更好地更新参数。
https://datascience.stackexchange.com/questions/75794
复制相似问题