AI新闻报简单自学机器学习理论——正则化和偏置方差的权衡

在第一部分探讨了统计模型潜在的机器学习问题,并用它公式化获得最小泛化误差这一问题;在第二部分通过建立关于难懂的泛化误差的理论去得到实际能够估计得到的经验误差,最后的结果是:

通过假设有固定的数据集,可以简化该界限,对于具体的置信度有:

本节基于该简化理论结果,开始针对解决机器学习问题的过程总结一些概念。

为什么丰富假设是坏的?

为了让事情更加具体并能够将讨论的内容可视化,将会使用仿真数据集。在仿真数据集中定义目标函数,使用该函数并通过计算机程序画出尽可能多想要的数据集。

接下来讨论统一来自区间[-1,1]之间样本x,并使用一维目标函数,加入零均值,标准差为2的高斯分布噪声后为。由于想要预测特征和响应y之间的关系,需要假设噪声尽可能的小。

下面训练一个线性、三次和十次多项式假设,仿真样本集有200个点,画出以上描述的分布,这些模型用淡蓝色的线标注,假设的平均值是用黑色蓝线标注,然而真实值是用破折线表示。

首先可以注意到越丰富,假设越复杂,真实目标的平均值也变得越小,估计的均值与目标值之间的差在统计学上作为偏差:

为了让解释更加具体,对目标函数进行泰勒展开,形式如下:

明显地,随着分母的增大,高分量对函数的贡献越小,这也导致更高分量显得次要。

线性模型的高偏置能够通过线性假设函数解释,目标函数的主要x分量为,同样地三次模型的低偏置能够通过三次假设函数解释。

很容易看到,假设与目标的平均值越接近,从目标值得到的平均损失也越小。这意味着低偏置的假设结果有着低的经验风险。

假设越丰富,捕获噪声的能力也变得越大,回到刚才的动画,可以注意到三次模型是如何达到目标图表尖峰的,但在顶帧时仍然不能够得到,最后在十次模型能得到顶峰,这种假设被称为数据集的过拟合。过拟合的行为可以通过注意挤满在其均值(深蓝色曲线)周围的线性假设的实值(淡蓝色曲线)与凌乱的十次模型均值周围的对比来量化。这表明假设越过拟合,可能实值在其均值周围分散得越宽,所以假设过拟合能够通过均值周围的方差为多少量化:

显然地,高方差模型不是理想的,因为我们不希望去适应噪声,因为丰富模型有更高的方差,这使得模型很坏并且泛化界限受到惩罚。

方差分解

下图是十次模型图:

由于每次随着随机采样D而变化,考虑将作为精确假设的随机变量。利用第一部分中的类似技巧,将随机变量分解成两个分量:代表其均值的确定性分量和代表其方差的随机分量;

其中是零均值、方差等于假设方差的随机变量:

因此可以用表示。

使用损失函数的平方差,能够对一些具体数据点x的风险写成:

用数据集D的期望作为数据点(x,y)分布的期望,使用的分解值可以得到:

由于期望的线性性和偏置不依赖D的事实,重写上述等式:

由于的均值为0,且有

则有

对于每个可能数据集D的所有数据点,其风险是

这表明泛化误差很好地分解为模型的偏置和方差,将这分解与泛化不等式相比,可以看到偏置与经验风险、方差与复杂性术语之间的联系。这就是偏置-方差分解,需要找到偏置与方差之间平衡的模型。

改良丰富度

研究更多的过拟合行为,考虑个体假设,关注红色曲线并查看其多项式系数,特别是对于目标函数的泰勒展开而言,对于特定函数,我们研究后发现:

1. 它的x前系数是3.9,而不是目标函数泰勒展开中的1;

2. 它的前系数为-5.4,而不是;

3. 它的前系数为22.7,而不是;

4. 它的前系数为-53.1,而不是;

5. 它的前系数为33.0,而不是;

可以看到,假设大大过估计了其系数,因此给了另外一种方法量化过拟合行为,即该假设的参数或者系数的大小是否大于其真值。

在训练模型时,发现参数w向量最小化给定数据集的经验风险,表示为优化问题:

其中m是数据集大小,x是特征向量,h(x;w)是假设。为了最小化幅度值,等价于队每个幅度进行范数约束,选择其中的一种欧几里得范数:

N表示特征的数量,所以我们能够重写最优化约束为:

引入拉格朗日乘子,可以以无约束方式表述约束最优化问题:

通过选择λ约束Q,可以摆脱对Q的显著依赖,并使用任意常数k替换Q:

上式就是正则化损失函数,这种正则化形式由于使用的是L2范数,也被称为L2-正则化。

上图显示的是L2正则化训练十次模型的结果,可以看到正则化结果无正则化的效果要好;尽管正则化使得偏置增大,但其方差降低得更多,这使得整体风险变小。

下图显示的是线性模型的均方差损失的轮廓,红色曲线描述的是L2正则化约束

该图表明当使用正则化后,最优化问题的解决方案从原始位置移动到该约束圆的最低位置,这意味着对于可行的解决方案,必须在该约束圆内,所以考虑将整个2维图表作为正则化前的假设空间,正则化后将假设空间约束到红圈中。

有着上述观察,可以将最小化问题

等价于泛化界限,正则项作为复杂项的最小值,这种变换的唯一缺少的是损失函数L的定义,这里使用的是平方差,下次将选择其他的损失函数并结合其所有的基本原则。

参考文献:

1.Christopher M. Bishop. 2006. Pattern Recognition and Machine Learning(Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus,NJ, USA.

2.Abu-Mostafa, Y. S., Magdon-Ismail, M., & Lin, H. (2012). Learning from data: ashort course.

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180102G0YVRO00?refer=cp_1026

扫码关注云+社区