AdaGrad 算法是借鉴 \ell_2 正则化的思想,每次迭代时自适应地调整每个参数的学习率。
第 t 次迭代时:
其中,\boldsymbol{W} 为需要更新的参数,L 为损失函数,\frac{\partial L}{\partial \boldsymbol{W}} 为 L 关于 \boldsymbol{W} 的梯度,\eta 为学习率,\odot 表示对应矩阵元素的乘法,\boldsymbol{\varepsilon} 是为了保持数值稳定而设置的非常小的常数(一般取e^{-7} 到 e^{-10} )。