只有在显著减小目标函数方向上的参数会保留得相对完好。在无助于目标函数减小的方向(对应 Hessian 矩阵较小的特征值)上改变参数不会显著增加梯度。这种不重要方向对应的分量会在训练过程中因正则化而衰减掉。通过权重衰减对优化一个抽象通用的二次代价函数的影响为例,我们会思考这些影响具体是怎么和机器学习关联的呢?我们可以研究线性回归,它的真实代价函数是二次的,因此我们可以使用相同的方法分析。再次应用分析,我们会在这种情况下得到相同的结果,但这次我们使用训练数据的术语表述。线性回归的代价函数是平方误差之和:
我们添加 L2正则项后,目标函数变为
这将普通方程的解从
变为
式 (7.16) 中的矩阵 X⊤X 与协方差矩阵1mX⊤X 成正比。L2正则项将这个矩阵替换为式 (7.17) 中的 (X⊤X + αI)−1这个新矩阵与原来的是一样的,不同的仅仅是在对角加了 α。这个矩阵的对角项对应每个输入特征的方差。我们可以看到,L2正则化能让学习算法 ‘‘感知’’ 到具有较高方差的输入 x,因此与输出目标的协方差较小(相对增加方差)的特征的权重将会收缩。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。