Momentum 类似于物理中的冲量的思想,Momentum 算法优化的过程给人的感觉就像是小球在地面上滚动。
第 t 次迭代时:
其中,\boldsymbol{W} 为需要更新的参数,L 为损失函数,\frac{\partial L}{\partial \boldsymbol{W}} 为 L 关于 \boldsymbol{W} 的梯度,\eta 为学习率,\boldsymbol{v} 类似于物理上的速度,\alpha 为动量因子,承担使 \boldsymbol{v} 逐渐减小的任务,对应于物理上的阻力,通常设为 0.9 。