第三层、证明SVM
说实话,凡是涉及到要证明的东西.理论,便一般不是怎么好惹的东西。绝大部分时候,看懂一个东西不难,但证明一个东西则需要点数学功底,进一步,证明一个东西也不是特别难,难的是从零开始发明创造这个东西的时候,则显艰难。
话休絮烦,要证明一个东西先要弄清楚它的根基在哪,即构成它的基础是哪些理论。OK,以下内容基本是上文中未讲到的一些定理的证明,包括其背后的逻辑、来源背景等东西,还是读书笔记。
本部分导述
3.1、线性学习器
3.1.1、感知机算法
这个感知机算法是1956年提出的,年代久远,依然影响着当今,当然,可以肯定的是,此算法亦非最优,后续会有更详尽阐述。不过,有一点,你必须清楚,这个算法是为了干嘛的:不断的训练试错以期寻找一个合适的超平面(是的,就这么简单)。
下面,举个例子。如下图所示,凭我们的直觉可以看出,图中的红线是最优超平面,蓝线则是根据感知机算法在不断的训练中,最终,若蓝线能通过不断的训练移动到红线位置上,则代表训练成功。
既然需要通过不断的训练以让蓝线最终成为最优分类超平面,那么,到底需要训练多少次呢?Novikoff定理告诉我们当间隔是正的时候感知机算法会在有限次数的迭代中收敛,也就是说Novikoff定理证明了感知机算法的收敛性,即能得到一个界,不至于无穷循环下去。
的错误次数下就可以找到分类超平面,算法停止。
这里
, \gamma为扩充间隔。根据误分次数公式可知, 迭代次数与对应于扩充(包括偏置)权重的训练集的间隔有关。
顺便再解释下这个所谓的扩充间隔\gamma ,\gamma 即为样本到分类间隔的距离,即从\gamma 引出的最大分类间隔。OK,还记得上文第1.3.2节开头的内容么?如下:“
在给出几何间隔的定义之前,咱们首先来看下,如上图所示,对于一个点 xX,令其垂直投影到超平面上的对应的为 X0,由于 w 是垂直于超平面的一个向量,\gamma 为样本x到分类间隔的距离,我们有
”然后后续怎么推导出最大分类间隔请回到本文第一、二部分,此处不重复板书。
同时有一点得注意:感知机算法虽然可以通过简单迭代对线性可分数据生成正确分类的超平面,但不是最优效果,那怎样才能得到最优效果呢,就是上文中第一部分所讲的寻找最大分类间隔超平面。
3.2、非线性学习器
Mercer定理 :如果函数K是
上的映射(也就是从两个n维向量映射到实数域)。那么如果K是一个有效核函数(也称为Mercer核函数),那么当且仅当对于训练样例
,其相应的核函数矩阵是对称半正定的。
要理解这个Mercer定理,先要了解什么是半正定矩阵,要了解什么是半正定矩阵,先得知道什么是正定矩阵(矩阵理论博大精深,关于矩阵推荐我正在看的一本《矩阵分析与应用》)。
3.3、损失函数
有这么一句话“支持向量机(SVM)是90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。”但初次看到的读者可能并不了解什么是结构化风险,什么又是经验风险。要了解这两个所谓的“风险”,还得又从监督学习说起。
监督学习实际上就是一个经验风险或者结构风险函数的最优化问题。风险函数度量平均意义下模型预测的好坏,模型每一次预测的好坏用损失函数来度量。它从假设空间F中选择模型f作为决策函数,对于给定的输入X,由f(X)给出相应的输出Y,这个输出的预测值f(X)与真实值Y可能一致也可能不一致,用一个损失函数来度量预测错误的程度。损失函数记为L(Y, f(X))。
常用的损失函数有以下几种(基本引用自《统计学习方法》):
如此,SVM有第二种理解,即最优化+损失最小。
关于损失函数,可以看看张潼的这篇《Statistical behavior and consistency of classification methods based on convex risk minimization》。各种算法中常用的损失函数基本都具有fisher一致性,优化这些损失函数得到的分类器可以看作是后验概率的“代理”。此外,张潼还有另外一篇论文《Statistical analysis of some multi-category large margin classification methods》,在多分类情况下margin loss的分析,这两篇对Boosting和SVM使用的损失函数分析的很透彻。
3.4、最小二乘法
既然本节开始之前提到了最小二乘法,那么下面引用《正态分布的前世今生》里的内容稍微简单阐述下。
我们口头中经常说:一般来说,平均来说。如平均来说,不吸烟的健康优于吸烟者,之所以要加“平均”二字,是因为凡事皆有例外,总存在某个特别的人他吸烟但由于经常锻炼所以他的健康状况可能会优于他身边不吸烟的朋友。而最小二乘法的一个最简单的例子便是算术平均。
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。用函数表示为:
使误差「所谓误差,当然是观察值与实际真实值的差量」平方和达到最小以寻求估计值的方法,就叫做最小二乘法,用最小二乘法得到的估计,叫做最小二乘估计。当然,取平方和作为目标函数只是众多可取的方法之一。
最小二乘法的一般形式可表示为:
有效的最小二乘法是勒让德在 1805 年发表的,基本思想就是认为测量中有误差,所以所有方程的累积误差为
我们求解出导致累积误差最小的参数即可:
勒让德在论文中对最小二乘法的优良性做了几点说明:
对于最后一点,从统计学的角度来看是很重要的一个性质。推理如下:假设真值为 θ, x1,⋯,xn为n次测量值, 每次测量的误差为ei=xi−θ,按最小二乘法,误差累积为
求解\theta 使L(\theta) 达到最小,正好是算术平均
。
由于算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘的一个特例,所以从另一个角度说明了最小二乘方法的优良性,使我们对最小二乘法更加有信心。
最小二乘法发表之后很快得到了大家的认可接受,并迅速的在数据分析实践中被广泛使用。不过历史上又有人把最小二乘法的发明归功于高斯,这又是怎么一回事呢。高斯在1809年也发表了最小二乘法,并且声称自己已经使用这个方法多年。高斯发明了小行星定位的数学方法,并在数据分析中使用最小二乘方法进行计算,准确的预测了谷神星的位置。
说了这么多,貌似跟本文的主题SVM没啥关系呀,别急,请让我继续阐述。本质上说,最小二乘法即是一种参数估计方法,说到参数估计,咱们得从一元线性模型说起。
什么是一元线性模型呢? 先来梳理下几个基本概念:
对于一元线性回归模型, 假设从总体中获取了n组观察值(X1,Y1),(X2,Y2), …,(Xn,Yn)。对于平面中的这n个点,可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。
选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。有以下三个标准可以选择:
最常用的是普通最小二乘法( Ordinary Least Square,OLS):所选择的回归模型应该使所有观察值的残差平方和达到最小,即采用平方损失函数。
我们定义样本回归模型为
其中ei为样本(Xi, Yi)的误差。
接着,定义平方损失函数Q:
则通过Q最小确定这条直线,即确定\hat{\beta}_0, \hat{\beta}_1\,以\hat{\beta}_0, \hat{\beta}_1 为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。
求Q对两个待估参数的偏导数:
根据数学知识我们知道,函数的极值点为偏导为0的点。
解得:
这就是最小二乘法的解法,就是求得平方损失函数的极值点。自此,你看到求解最小二乘法与求解SVM问题何等相似,尤其是定义损失函数,而后通过偏导求得极值。
OK,更多请参看陈希孺院士的《数理统计学简史》的第4章、最小二乘法。
3.5、SMO算法
在上文中,我们提到了求解对偶问题的序列最小最优化SMO算法,但并未提到其具体解法。首先看下最后悬而未决的问题:
等价于求解:
咱们首先来定义特征到结果的输出函数:
注:这个u与我们之前定义的
实质是一样的。
接着,重新定义下咱们原始的优化问题,权当重新回顾,如下:
求导得到:
代入
中,可得
通过引入拉格朗日乘子转换为对偶问题后,得:
s.t:
且
注:这里得到的min函数与我们之前的max函数实质也是一样,因为把符号变下,即由min转化为max的问题,且yi也与之前的y^{(i)} 等价,yj亦如此。
经过加入松弛变量后,模型修改为:
从而最终我们的问题变为:
下面要解决的问题是:在
上求上述目标函数的最小值。为了求解这些乘子,每次从中任意抽取两个乘子\alpha_1 和\alpha_2 ,然后固定\alpha_1 和\alpha_2 以外的其它乘子
,使得目标函数只是关于\alpha_1 和\alpha_2
的函数。这样,不断的从一堆乘子中任意抽取两个求解,不断的迭代求解子问题,最终达到求解原问题的目的。
而原对偶问题的子问题的目标函数可以表达为:
其中
为了解决这个子问题,首要问题便是每次如何选取\alpha_1 和\alpha_2 。实际上,其中一个乘子是违法KKT条件最严重的,另外一个乘子则由另一个约束条件选取。
根据KKT条件可以得出目标函数中\alpha_i 取值的意义:
这里的\alpha_i 还是拉格朗日乘子:
);
而最优解需要满足KKT条件,即上述3个条件都得满足,以下几种情况出现将会出现不满足:y_iu_i \leq 1但是\alpha_i <C则是不满足的,而原本\alpha_i =C
>=1但是
>0则是不满足的,而原本
=0
=1但是
=0或者
=C则表明不满足的,而原本应该是0<
<C
也就是说,如果存在不满足KKT条件的
,那么需要更新这些
,这是第一个约束条件。此外,更新的同时还要受到第二个约束条件的限制,即
因此,如果假设选择的两个乘子
和
,它们在更新之前分别是
、
,更新之后分别是
、
,那么更新前后的值需要满足以下等式才能保证和为0的约束:
其中,
是常数。
两个因子不好同时求解,所以可先求第二个乘子
的解(
),得到
的解(
)之后,再用
的解(
)表示
的解(
)。
为了求解
,得先确定
的取值范围。假设它的上下边界分别为H和L,那么有:
接下来,综合
和
这两个约束条件,求取
的取值范围。
当y1 != y2时,根据
可得
,所以有
,
,如下图所示:
当y1 = y2时,同样根据
可得:
,所以有
,
,如下图所示:
如此,根据y1和y2异号或同号,可得出
的上下界分别为:
回顾下第二个约束条件
,令上式两边乘以y1,可得
其中,
。
因此
可以用
表示,
,从而把子问题的目标函数转换为只含
的问题:
对
求导,可得
化简下:
然后将
、
、和
代入上式可得:
令
(表示预测值与真实值之差),
,然后上式两边同时除以
,得到一个关于单变量
的解:
这个解没有考虑其约束条件
,即是未经剪辑时的解。
然后考虑约束
可得到经过剪辑后的
的解析解为:
求出了后
,便可以求出
,得
。
那么如何选择乘子
和
呢?
,即第一个乘子,可以通过刚刚说的那3种不满足KKT的条件来找;
可以寻找满足条件 :
的乘子。
而b在满足下述条件:
下更新b:
且每次更新完两个乘子的优化后,都需要再重新计算b,及对应的Ei值。
最后更新所有
,y和b,这样模型就出来了,从而即可求出咱们开头提出的分类函数:
综上,总结下SMO的主要步骤,如下:
意思是,
和
,选取方法使用启发式方法;
和
之外的其他参数,确定W极值条件下的
,
由
表示。
假定在某一次迭代中,需要更新
,
对应的拉格朗日乘子
,
,那么这个小规模的二次规划问题写为:
那么在每次迭代中,如何更新乘子呢?
知道了如何更新乘子,那么选取哪些乘子进行更新呢?具体选择方法有以下两个步骤:
,而
,求出来的E代表函数ui对输入xi的预测值与真实输出类标记yi之差)。
最后,每次更新完两个乘子的优化后,都需要再重新计算b,及对应的Ei值。
综上,SMO算法的基本思想是将Vapnik在1982年提出的Chunking方法推到极致,SMO算法每次迭代只选出两个分量ai和aj进行调整,其它分量则保持固定不变,在得到解ai和aj之后,再用ai和aj改进其它分量。与通常的分解算法比较,尽管它可能需要更多的迭代次数,但每次迭代的计算量比较小,所以该算法表现出较好的快速收敛性,且不需要存储核矩阵,也没有矩阵运算。