RMSprop 算法是 AdaGrad 算法的改进,可以在有些情况下避免 AdaGrad 算法中学习率不断单调下降以至于过早衰减的缺点。
第 t 次迭代时:
其中,\beta 为衰减率,一般取指为 0.9 。
其中,\boldsymbol{W} 为需要更新的参数,L 为损失函数,\frac{\partial L}{\partial \boldsymbol{W}} 为L 关于 \boldsymbol{W} 的梯度,\eta 为学习率,\odot 表示对应矩阵元素的乘法,\boldsymbol{\varepsilon} 是为了保持数值稳定而设置的非常小的常数(一般取 e^{-7} 到 e^{-10} )。