分布/数字特征 | 期望 | 方差 |
---|---|---|
两点分布 | q | pq |
二项分布 | np | npq |
泊松分布 | λ | λ |
均匀分布 | a+b2 | 112(b−a)2 |
指数分布 | 1λ | 1λ2 |
正态分布 | μ | σ2 |
避免过拟合的方法有很多:early stopping, 数据集扩增(Data augmentation), 正则化(Regularization),Dropout等.
其中,α>0是更新步长,它是一个常数,λ>0是正则项数,它是一个常数 从w更新方程中可以看出,在不使用L2正则项时,求导结果中的w前的系数为1,而现在前面的系数为(1−αλn),因为α,λ,n都是正数,因此前面的系数小于0,它的效果就是减小w,这就是为何L2正则又被称为“权值衰减”(weight decay). 通过L2正则来降低模型的复杂度,提高模型的泛化能力,防止过拟合,并且L2正则本书是一个凸二次函数,这样便有利于优化. 在前面所说的正规方程中,若XTX不可逆,则无法进行求解,那么如果加上L2正则项,就变成:
FromPRML 上图中使用的模型是线性回归,该模型中有两个特征,要优化的参数分别是w1和w2,左图的正则化是L2,右图是L1. 蓝色线就是优化过程中遇到的等高线,一圈代表一个目标函数值,圆心就是样本观测值(假设一个样本),半径就是误差值,受限条件就是红色边界(就是正则化那部分),二者相交处,才是最优参数. 可见右边的最优参数只可能在坐标轴上,所以就会出现0权重参数,使得模型稀疏. 从另一个角度上来看,正则化其实就是对模型的参数设定一个先验,这是贝叶斯学派的观点,也是一种理解。L1正则是Laplace先验,L2是高斯先验.