开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

momentum

Momentum是一个物理学和机器学习中常用的概念。

一、基础概念

物理学中的动量（momentum）
- 定义：在经典力学中，对于一个具有质量$m$和速度$v$的物体，其动量$p = mv$。动量是矢量，方向与速度方向相同。
- 意义：它反映了物体运动的“趋势”和“惯性”。例如，在碰撞问题中，动量守恒定律表明，在没有外力作用的情况下，系统总的动量保持不变。

机器学习中的动量（momentum）
- 定义：在优化算法（如梯度下降法）中使用。它考虑了之前梯度的方向，通过一个动量系数$\mu$（通常取值在0到1之间）来加权之前的梯度更新方向。
- 公式：假设在第$t$步的参数更新为$\theta_t=\theta_{t - 1}-\alpha\nabla J(\theta_{t - 1})+\mu(\theta_{t - 1}-\theta_{t - 2})$，其中$\alpha$是学习率，$\nabla J(\theta)$是损失函数$J$关于参数$\theta$的梯度。

二、优势

物理学中的优势（相对而言）
- 在分析复杂的力学系统时，动量守恒定律可以简化计算。例如，在多个物体相互作用的问题中，不需要详细分析每个物体之间的相互作用力随时间的细节，只需要考虑系统的初始和末态动量。

机器学习中的优势
- 加速收敛：动量算法可以让优化过程更快地穿越平坦区域并绕过局部最小值。因为它利用了之前的梯度信息，使得参数更新方向更平滑，减少了在山谷或者鞍点附近震荡的情况。
- 更稳定的训练：有助于减少由于学习率设置不当导致的训练不稳定现象。

三、类型（主要从机器学习角度）

标准动量（Standard Momentum）
- 如上述公式所示，是最基本的动量优化形式。

Nesterov加速梯度（NAG）
- 它是对标准动量的一种改进。在计算梯度时，先按照带有动量的方向进行一个“预查看”，然后再计算梯度，使得优化方向更加准确。

四、应用场景

物理学中的应用场景
- 碰撞实验分析：无论是弹性碰撞还是非弹性碰撞，动量守恒定律都是分析碰撞前后物体运动状态的重要依据。
- 天体力学：研究天体之间的相互作用时，动量概念有助于理解天体的运动轨迹和相互作用效果。

机器学习中的应用场景
- 深度学习模型训练：如在神经网络训练中，无论是用于图像识别、自然语言处理还是其他任务，动量优化算法都可以提高训练效率和模型性能。
- 函数拟合：在各种基于梯度的函数拟合任务中，动量有助于更快地找到最优解。

五、可能遇到的问题及解决方法（机器学习方面）

动量系数选择不当
- 问题：如果$\mu$过大，可能会导致算法跳过最优解；如果$\mu$过小，则接近普通梯度下降，无法发挥动量的优势。
- 解决方法：通过实验和经验来选择合适的$\mu$值。一般可以从0.9开始尝试，然后根据训练的收敛速度和稳定性进行调整。

与其他超参数的冲突
- 问题：动量与学习率等超参数相互影响。例如，当学习率过高且动量较大时，可能会导致参数更新幅度过大而发散。
- 解决方法：采用系统的方法来调整超参数，如网格搜索或者随机搜索结合验证集的性能指标来找到合适的超参数组合。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

momentum

momentum（动量）的概念源自于物理学，可理解为惯性，那么它是如何帮助我们寻找最优解的呢？...momentum就是模拟这一过程来加速神经网络优化的。下图直观的解释了momentum的全部内容 ?...下图是设置了momentum的情况，相比于没有momentum，网络更新更快，而且也几乎找到了全局最优解 ?...但要注意，并不是所有的模型都适合加入momentum，有些加了反而速度变慢（因为考虑了之前的历史因素）在pytorch中添加momentum参数十分方便，只需要在优化器设置函数中进行添加即可 optimizer...但要注意，对于Adam优化器来说，它没有momentum这个参数，因为它已经内置了momentum机制，只有SGD才需要额外设置

4042 0

Momentum

简介 Momentum 类似于物理中的冲量的思想，Momentum 算法优化的过程给人的感觉就像是小球在地面上滚动。 2.

2012 0

Improved Baselines with Momentum Contrastive Learning

对比无监督学习最近显示出令人鼓舞的进展，例如在动量对比(MoCo)和SimCLR中。在这篇笔记中，我们通过在MoCo框架中实现SimCLR的两个设计改进来验证它...

9581 0

orbital angular momentum_omnidirectional

Scrapy和BeautifulSoup获取的页面大多数都是静态页面，即不需要用户登录即可获取数据，然而许多网站是需要用户登录操作的，诚然，Scrapy和Bea...

1.1K6 0

优化算法之Gradient descent with momentum

a 伪最优解 momentum n. 势头；[物] 动量；动力；冲力复数momentums或momenta momentum有冲量、动量的意思。那么我们在什么情况下使用动量呢？...▲gradient descent with momentum 通过两个路径曲线的对比，很直观的感觉使用动量的路径曲线：振荡的幅度变小了；而且到达一定地点的时间变短了； ?...▲momentum有可能跳出local minima 当然不是说使用了动量就一定可以达到最优解。...下面还有一个好处，使用动量梯度下降法（gradient descent with momentum），其速度会比传统的梯度下降算法快的多。

9472 0

Momentum Contrast for Unsupervised Visual Representation Learning

我们提出了无监督视觉表征学习的动量对比(MoCo)。从作为字典查找的对比学习[29]的角度来看，我们构建了具有队列和移动平均编码器的动态字典。这使得能够动态构建...

1.8K3 0

深度学习优化入门：Momentum、RMSProp 和 Adam

Momentum 与 SDG 结合使用的一种常用方法叫做 Momentum。Momentum 不仅会使用当前梯度，还会积累之前的梯度以确定走向。梯度下降方程修改如下。第一个式子有两项。...第一项是上一次迭代的梯度，乘上一个被称为「Momentum 系数」的值，可以理解为取上次梯度的比例。...我们之所以使用指数平均是因为在 momentum 例子中看到的那样，它可以使得间隔和权重成正比例变化。...Adam 到目前为止，我们已经对比了 RMSProp 和 Momentum 两种方法。尽管 Momentum 加速了我们对极小值方向的搜索，但 RMSProp 阻碍了我们在振荡方向上的搜索。...为了确定迭代步长我们在方程 3 中用梯度的指数平均乘学习率（如 Momentum 的情况）并除以根号下的平方指数平均（如 Momentum 的情况），然后方程 4 执行更新步骤。

5274 0

深度学习优化算法Momentum RMSprop Adam

一、Momentum 1. 计算dw、db. 2....db \[ dw=w-\alpha \frac{w}{\sqrt{s_{dw}}} \] \[ db=b-\alpha \frac{b}{\sqrt{s_{db}}} \] 三、Adam ==结合了Momentum

5287 0

简单理解Momentum,RMSprop,Adam优化算法

因此根据这些原因，有人提出了Momentum优化算法，这个是基于SGD的，简单理解，就是为了防止波动，取前几次波动的平均值当做这次的W。...也用到权重超参数beta（一般取0.999），和Momentum相似：其中dW的平方是(dW)^2，db的平方是(db)^2。...而Momentum，RMSprop是很长时间来最经得住考研的优化算法，适合用于不同的深度学习结构。所以有人就有想法，何不将这俩的方法结合到一起呢？然后，pia ji一下，Adam问世了。

1.3K14 0

Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate and Momentum

Adaptive Inertia: Disentangling the Effects of Adaptive Learning Rate and Momentum 本博客暂略公式推导 Summary...Adai通过解偶Grad以及Momentum,让模型能够更快的逃离saddle points,更倾向选择flat minima而不是sharp minima....Momentum 有一个物理学上很容易想象的例子，对于一个重球，他总是偏向于按照惯性下降至最低点，而SGD的朴素随机梯度下降则不太符合现实生活中的重球下落，那如果给SGD加一个表示“质量”的“惯性”呢？...图片 then: 图片通过对比定理1，2的图片 ,可以发现SGD逃出鞍点仅仅是因为扩散效应,而Momentum的作用在于提供一个额外的惯性。...：图片即就平均逃逸时间而言，Momentum不影响flat minima的选择 Adam 作者针对Adam提出了看法一和看法二： Proposition 1 对于adam,有：

5402 0

如何评价Kaiming He的Momentum Contrast for Unsupervised?

representation learning 中很常用的方法，在人脸等领域其实也在广泛使用，但是似乎很少看到在 key 和 query 上用不同 feature extractor 的，从论文看 momentum...一些小的想法： momentum encoder确实很巧妙，让这个方法扩展到了大数据集个人感觉loss里面的tau会是比较重要的超参，特别是网络初始化不好的话 reid里面结合softmax loss...然后因为key encoder要比query encoder慢一点点同步（一样的话不好）所以加了个momentum。...discrimination 来做unsupervised representation learning，同样类似的文章还有examplar CNN [2] 和 NCE [3], 但是kaiming大神用momentum...Momentum Contrast: kaiming 大神用momentum的思想很好的弥补了我们方法的缺陷，从而使得模型在学习的过程中避免学习classifier weights 和memory bank

1.5K4 0

量化CTA：Deep Momentum Network的细节思考

在Lim etl. 2019的论文《Enhancing Time Series Momentum Strategies Using Deep Neural Networks》中，作者提出了Deep Momentum...最近作者又在《Enhancing Time Series Momentum Strategies Using Deep Neural Networks》的基础上，针对趋势迟钝性的问题，发表了新的论文《Slow...Momentum with Fast Reversion: A Trading Strategy Using Deep Learning and Changepoint Detection》。...Roberts, “Enhancing time-series momentum strategies using deep neural networks,” The Journal of Financial...Enhancing time series momentum strategies using Deep Neural Networks. arXiv.org.

2.6K3 0

深度学习优化入门：Momentum、RMSProp 和 Adam

虽然我们不能精确的计算它，但是我们可以遵循启发式方式，以指导我们根据之前的梯度进行优化 Momentum 与 SDG 结合使用的一种常用方法叫做 Momentum。...Momentum 不仅会使用当前梯度，还会积累之前的梯度以确定走向。梯度下降方程修改如下。 ? 第一个式子有两项。...我们之所以使用指数平均是因为在 momentum 例子中看到的那样，它可以使得间隔和权重成正比例变化。...Adam 到目前为止，我们已经对比了 RMSProp 和 Momentum 两种方法。尽管 Momentum 加速了我们对极小值方向的搜索，但 RMSProp 阻碍了我们在振荡方向上的搜索。...为了确定迭代步长我们在方程 3 中用梯度的指数平均乘学习率（如 Momentum 的情况）并除以根号下的平方指数平均（如 Momentum 的情况），然后方程 4 执行更新步骤超参数 beta1 一般取

4684 0

供应链数据因子化研究：Customer Momentum

考虑更多层的客户，采用更长时间的动量，能够显著提高Customer Momentum因子的表现。...总结过去多年的研究方法，关于供应链数据在量化中的应用，主要有以下几个方面：股票价格的传导，比如Customer Momentum研究的是客户价格变动对供应商的影响；Supplier Momentum研究的是供应商价格变动对于客户股票价格的影响...但总体而言，研究Customer Momentum，且发现明显传导效果的研究成果比较多，在Customer Momentum研究的过程中，还有许多值得考虑的问题：多长时间的动量？...测试结果针对MSCI发达国家指数成分股，基于Customer Momentum分为五组，做多Top组，做空Bottom组，月度调仓。...下表12给出了测试结果：其中T表示Customer Momentum计算时采用的不同的时间长度，比如T=1，表示在等式5中采用过去1个月的收益率。

8012 0

深度学习优化入门：Momentum、RMSProp 和 Adam

虽然我们不能精确的计算它，但是我们可以遵循启发式方式，以指导我们根据之前的梯度进行优化 Momentum 与 SDG 结合使用的一种常用方法叫做 Momentum。...Momentum 不仅会使用当前梯度，还会积累之前的梯度以确定走向。梯度下降方程修改如下。 ? 第一个式子有两项。...我们之所以使用指数平均是因为在 momentum 例子中看到的那样，它可以使得间隔和权重成正比例变化。...Adam 到目前为止，我们已经对比了 RMSProp 和 Momentum 两种方法。尽管 Momentum 加速了我们对极小值方向的搜索，但 RMSProp 阻碍了我们在振荡方向上的搜索。...为了确定迭代步长我们在方程 3 中用梯度的指数平均乘学习率（如 Momentum 的情况）并除以根号下的平方指数平均（如 Momentum 的情况），然后方程 4 执行更新步骤超参数 beta1 一般取

7020 0

深度学习优化入门：Momentum、RMSProp 和 Adam

深度学习优化入门：Momentum、RMSProp 和 Adam 本文，我们讨论一个困扰神经网络训练的问题，病态曲率。...2 Momentum:动量与 SDG 结合使用的一种常用方法叫做 Momentum。Momentum 不仅会使用当前梯度，还会积累之前的梯度以确定走向。梯度下降方程修改如下。第一个式子有两项。...第一项是上一次迭代的梯度，乘上一个被称为「Momentum 系数」的值，可以理解为取上次梯度的比例。...3Adam 到目前为止，我们已经对比了 RMSProp 和 Momentum 两种方法。尽管 Momentum 加速了我们对极小值方向的搜索，但 RMSProp 阻碍了我们在振荡方向上的搜索。...为了确定迭代步长我们在方程 3 中用梯度的指数平均乘学习率（如 Momentum 的情况）并除以根号下的平方指数平均（如 Momentum 的情况），然后方程 4 执行更新步骤。

1981 0

动量(momentum)和Nesterov动量

虽然随机梯度下降仍然是非常受欢迎的优化方法，但其学习过程有时会很慢。动量方法旨在加速学习，特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。动量算法积累了之前...

5.6K3 0

梯度下降的可视化解释(Adam，AdaGrad，Momentum，RMSProp)

A Visual Explanation of Gradient Descent Methods (Momentum, AdaGrad, RMSProp, Adam) by Lili Jiang https...在一个表面上动画演示5个梯度下降法: 梯度下降(青色) ，momentum(洋红色) ，AdaGrad (白色) ，RMSProp (绿色) ，Adam (蓝色)。...动量（Momentum）带有动量的梯度下降算法(简称动量)借鉴了物理学的思想。想象一下在无摩擦的碗里滚动一个球。没有在底部停止，而是积累的动量推动它前进，球继续前后滚动。...让我们来看看它是如何工作的: sum_of_gradient = previous_sum_of_gradient * beta1 + gradient * (1 - beta1) [Momentum]...通过一些参数调整，Momentum 和 Adam (多得其动量组件)可以到达中心，而其它方法不能。总之，梯度下降法算法是一类通过梯度来寻找函数最小点的算法。

8702 0

梯度下降的可视化解释(Adam，AdaGrad，Momentum，RMSProp)

A Visual Explanation of Gradient Descent Methods (Momentum, AdaGrad, RMSProp, Adam) by Lili Jiang https...在一个表面上动画演示5个梯度下降法: 梯度下降(青色) ，momentum(洋红色) ，AdaGrad (白色) ，RMSProp (绿色) ，Adam (蓝色)。...动量（Momentum） ? 带有动量的梯度下降算法(简称动量)借鉴了物理学的思想。想象一下在无摩擦的碗里滚动一个球。没有在底部停止，而是积累的动量推动它前进，球继续前后滚动。...让我们来看看它是如何工作的: sum_of_gradient = previous_sum_of_gradient * beta1 + gradient * (1 - beta1) [Momentum]...通过一些参数调整，Momentum 和 Adam (多得其动量组件)可以到达中心，而其它方法不能。总之，梯度下降法算法是一类通过梯度来寻找函数最小点的算法。

2K5 0

深度学习基础入门篇：优化策略梯度下降算法：SGD、MBGD、Momentum、Adam、AdamW

深度学习基础入门篇[三]：优化策略梯度下降算法：SGD、MBGD、Momentum、Adam、AdamW 1.梯度下降算法（优化器） 1.1 原理解释如果我们定义了一个机器学习模型，比如一个三层的神经网络...Momentum 为了抑制SGD的震荡，SGDM认为梯度下降过程可以加入惯性。可以简单理解为：当我们将一个小球从山上滚下来时，没有阻力的话，它的动量会越来越大，但是如果遇到了阻力，速度就会变小。...SGDM全称是SGD with momentum，在SGD基础上引入了一阶动量： v_t=\gamma v_{t-1}+\eta\nabla J(\theta) SGD-M参数更新公式如下，其中η是学习率...SGD 震荡且缓慢的沿着沟壑的下坡方向朝着局部最优点前进，如下图： momentum能够加速SGD方法，并且能够减少震荡，如下图：特点加入了动量因素，SGD-M缓解了SGD在局部最优点梯度为0...把一阶动量和二阶动量都用起来，就是Adam了——Adaptive + Momentum。优点通过一阶动量和二阶动量，有效控制学习率步长和梯度方向，防止梯度的振荡和在鞍点的静止。

1.9K7 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭