Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >亚当优化器真的是RMSprop加动量吗?如果是,为什么它没有动量参数?

亚当优化器真的是RMSprop加动量吗?如果是,为什么它没有动量参数?
EN

Stack Overflow用户
提问于 2020-04-22 23:30:58
回答 1查看 3.6K关注 0票数 2

这里是一个链接到tensorflow优化器。在这里,你可以看到,RMSprop以动量为论据,而Adam没有这样做。所以我很困惑。Adam优化假装是具有动量的RMSprop优化,如下所示:

Adam = RMSprop +动量

但是为什么RMSprop有动量参数,而Adam没有呢?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-04-23 03:53:32

虽然"Adam是具有动量的Adam是RMSProp“这一短语确实被广泛使用,但它只是一个非常粗略的描述,不应该用面值来表示;在最初的亚当纸中,它已经得到了明确的澄清(第6页):

带有动量的RMSProp和Adam之间有几个重要的区别:带动量的RMSProp使用重标度梯度上的动量生成其参数更新,而Adam更新直接使用梯度的第一和第二矩的运行平均值来估计。

有时,作者明确指出,主题表达式只是一种松散的描述,例如在(强烈推荐的) 梯度下降优化算法综述中(强调后加):

亚当还保持了一个指数衰减的过去梯度mt,类似于动量的平均值。

或者在斯坦福大学CS231n:用于视觉识别的CNN中(同样,强调是加在后面的):

Adam是最近提出的一个更新,它的看起来有点像带有势头的RMSProp。

尽管如此,其他一些框架确实为Adam包含了一个momentum参数,但这实际上是beta1参数;下面是CNTK

动量(浮点,列表,momentum_schedule()输出)-动量调度。注意,这是Adam文件中的beta1参数。有关更多信息,请参考这篇CNTK Wiki文章

所以,不要把这个看得太过字面意思,不要因为它而失眠。

票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61381648

复制
相关文章
深度学习优化算法入门:二、动量、RMSProp、Adam
本系列的上一篇文章介绍了随机梯度下降,以及如何应对陷入局部极小值或鞍点的问题。在这篇文章中,我们将查看另一个困扰神经网络训练的问题,病态曲率。
zenRRan
2019/11/19
2.7K0
动量(momentum)和Nesterov动量
虽然随机梯度下降仍然是非常受欢迎的优化方法,但其学习过程有时会很慢。动量方法旨在加速学习,特别是处理高曲率、小但一致的梯度,或是带噪声的梯度。动量算法积累了之前梯度指数级衰减的移动平均,并且继续沿该方向移动。从形式上看,动量算法引入了变量v充当速度角色------它代表参数在参数空间移动的方向和速率。速度被设为负梯度的指数衰减平均。名称动量来自物理类比,根据牛顿运动定律,负梯度是移动参数空间中粒子的力。动量在物理学上定义为质量乘以速度。在动量学习算法中,我们假设是单位质量,因此速度向量v也可以看作粒子的动量。超参数 决定了之前梯度的贡献衰减得有多快。更新规则如下:
狼啸风云
2019/08/14
5.7K0
10个梯度下降优化算法+备忘单
梯度下降是一种寻找函数极小值的优化方法,在深度学习模型中常常用来在反向传播过程中更新神经网络的权值。
AI研习社
2019/07/22
1.3K0
10个梯度下降优化算法+备忘单
深度学习—带动量的SGD相关参数
一、weight decay(权值衰减)的使用既不是为了提高你所说的收敛精确度也不是为了提高收敛速度,其最终目的是防止过拟合。在损失函数中,weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示模型的复杂度,所以weight decay的作用是调节模型复杂度对损失函数的影响,若weight decay很大,则复杂的模型损失函数的值也就大。 二、momentum是梯度下降法中一种常用的加速技术。对于一般的SGD,其表达式为 w=w-alph*f'(x)(梯度)沿负梯度方向下降。而带momentum项的SGD则写生如下形式:
微风、掠过
2018/08/02
1.2K0
深度学习—带动量的SGD相关参数
动量扩散比MSR:有效的动量因子收益预测指标
量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。 作者:Siyuan Ma 股价动量仍然是迄今为止最显著、最神秘的异象,在股票和投资组合层面都普遍存在。在动量相关的研究方向上,大多数研究集中在动量的截面特征上,而动量的时间序列特性却很少被提及。经过几十年的探索,支持基
量化投资与机器学习微信公众号
2022/07/19
5700
动量扩散比MSR:有效的动量因子收益预测指标
动量因子30年
自从Jegadeesh和Titman(1993)验证了“买入过去收益较高的股票,卖出收益较低的股票“的交易策略能够带来显著的正收益,动量效应的提出至今已经有30多年。这种动量效应在各种资产类别和全球范围内都很强劲,这可能是对有效市场假说最直接的反驳。对投资者来说,动量是一种稳健、多变且有利可图的投资策略,这种策略已被共同基金、对冲基金和被动ETF广泛采用。对于金融研究来说,动量与Fama(1970)的弱形式有效市场假说存在显著矛盾。
量化投资与机器学习微信公众号
2023/04/20
1.4K0
动量因子30年
Adam 优化算法详解
Adam Optimizer是对SGD的扩展,可以代替经典的随机梯度下降法来更有效地更新网络权重。
deephub
2020/06/10
1.3K0
Pytorch基础知识-动量
上节课讲了Regularization的原理和使用,它作为一个有效的减少over-fitting的手段使用十分广泛,本节课补充介绍一些小技巧(动量)。
用户6719124
2019/11/17
8130
多任务时序动量策略
本文提出通过多任务学习构建一个时间序列动量组合,该多任务架构同时对收益和风险相关的任务进行学习。这种方法可以同时学习影响资产风险和收益的共同因素,权衡不同窗口期的风险和收益,并能提高了时间序列动量策略的表现。
量化投资与机器学习微信公众号
2023/09/06
4710
多任务时序动量策略
Adam真的是最好的优化器吗?
Adam 优化器是深度学习中最流行的优化器之一。它适用于很多种问题,包括带稀疏或带噪声梯度的模型。其易于精调的特性使得它能够快速获得很好的结果,实际上,默认的参数配置通常就能实现很好的效果。Adam 优化器结合了 AdaGrad 和 RMSProp 的优点。Adam 对每个参数使用相同的学习率,并随着学习的进行而独立地适应。此外,Adam 是基于动量的算法,利用了梯度的历史信息。基于这些特征,在选择优化算法时,Adam 往往是「当仁不让」。
小白学视觉
2022/04/06
5910
Adam真的是最好的优化器吗?
Adam真的是最好的优化器吗?
Adam 优化器是深度学习中最流行的优化器之一。它适用于很多种问题,包括带稀疏或带噪声梯度的模型。其易于精调的特性使得它能够快速获得很好的结果,实际上,默认的参数配置通常就能实现很好的效果。Adam 优化器结合了 AdaGrad 和 RMSProp 的优点。Adam 对每个参数使用相同的学习率,并随着学习的进行而独立地适应。此外,Adam 是基于动量的算法,利用了梯度的历史信息。基于这些特征,在选择优化算法时,Adam 往往是「当仁不让」。
阿泽 Crz
2021/01/11
3.1K0
Adam真的是最好的优化器吗?
【机器学习基础】 | 各种梯度下降优化算法回顾和总结
论文标题:An overview of gradient descent optimization algorithms 原文链接:https://arxiv.org/pdf/1609.04747.pdf Github:NLP相关Paper笔记和代码复现(https://github.com/DengBoCong/nlp-paper) 说明:阅读论文时进行相关思想、结构、优缺点,内容进行提炼和记录,论文和相关引用会标明出处,引用之处如有侵权,烦请告知删除。
统计学家
2021/10/11
1.6K0
量化投资之动量反转
量化投资投资之动量反转 微博:@数说工作室网站 微信公众号:数说工作室 那一年,你在我的有效市场里随机游走,不经意间毁灭了我的理性人假设。从此,维持与你相爱的动量效应,成为我人生唯一的投资策略。 ——送给她 一. 行为金融学 1. 行为金融学的发展 20世纪80年代,股票市场一系列经验研究发现了与有效市场不符现象,如股权溢价之谜、动量效应与反转效应、期权微笑等。到20世纪90年代,该领域涌现了大量高质量的理论和实证文献,形成最具活力的行为金融学派。 2002年,诺贝尔经济学奖授予了美国行为经
数说君
2018/04/08
2.5K0
量化投资之动量反转
市场波动加剧:动量策略参数是否应该更敏感?
前几日,《Systematic Trading》的作者,在其博客中探讨了这样一个问题,当市场波动加剧时是否应该调整动量策略的参数(从长周期到短周期)?
量化投资与机器学习微信公众号
2021/04/16
7230
市场波动加剧:动量策略参数是否应该更敏感?
在机器学习项目中该如何选择优化器
本文概述了计算机视觉、自然语言处理和机器学习中常用的优化器。此外,你会找到一个基于三个问题的指导方针,以帮助你的下一个机器学习项目选择正确的优化器。
小白学视觉
2022/02/10
3940
在机器学习项目中该如何选择优化器
Pytorch中常用的四种优化器SGD、Momentum、RMSProp、Adam。
很多人在使用pytorch的时候都会遇到优化器选择的问题,今天就给大家介绍对比一下pytorch中常用的四种优化器。SGD、Momentum、RMSProp、Adam。
ShuYini
2019/08/21
24.2K0
Pytorch中常用的四种优化器SGD、Momentum、RMSProp、Adam。
优化器怎么选?一文教你选择适合不同ML项目的优化器
优化器是深度学习领域的重要组成模块之一,执行深度学习任务时采用不同的优化器会产生截然不同的效果。这也是研究者们不遗余力「炼丹」的原因之一。常见的优化算法包括梯度下降(变体 BGD、SGD 和 MBGD)、Adagrad、Adam、Momentum 等,如此繁多的优化器应该如何做出抉择呢?
机器之心
2021/01/06
7310
梯度下降推导与优化算法的理解和Python实现
模型的算法就是为了通过模型学习,使得训练集的输入获得的实际输出与理想输出尽可能相近。极大似然函数的本质就是衡量在某个参数下,样本整体估计和真实情况一样的概率,交叉熵函数的本质是衡量样本预测值与真实值之间的差距,差距越大代表越不相似
程序员小猿
2021/01/19
6130
梯度下降推导与优化算法的理解和Python实现
【机器学习基础】在机器学习项目中该如何选择优化器
本文概述了计算机视觉、自然语言处理和机器学习中常用的优化器。此外,你会找到一个基于三个问题的指导方针,以帮助你的下一个机器学习项目选择正确的优化器。
黄博的机器学习圈子
2020/08/20
5080
【机器学习基础】在机器学习项目中该如何选择优化器
Adam那么棒,为什么还对SGD念念不忘(1)
“说到优化算法,入门级必从 SGD 学起,老司机则会告诉你更好的还有AdaGrad / AdaDelta,或者直接无脑用 Adam。可是看看学术界的最新 paper,却发现一众大神还在用着入门级的 SGD,最多加个 Momentum 或者Nesterov,还经常会黑一下 Adam。这是为什么呢?” 机器学习界有一群炼丹师,他们每天的日常是: 拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着丹药出炉了。 不过,当过厨子的都知道,同样的食材,同样的菜谱,但火候不一样了,这出来的
企鹅号小编
2018/01/29
1.1K0

相似问题

"ValueError:未知优化器:动量“是动量优化器的正确名称吗?

15

tensorflow中的RMSProp优化器是否使用Nesterov动量?

17

流星加动量:瞬间失败

23

adam优化器与动量优化器

28

动量优化器的学习速率变化

10
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文