支持向量机(SVM)之Mercer定理与损失函数----5

昱良

发布于 2018-04-04 12:00:14

3.6K0

发布于 2018-04-04 12:00:14

文章被收录于专栏：机器学习算法与Python学习

任何时代，大部分人的研究所得都不过是基于前人的研究成果，前人所做的是开创性工作，而这往往是最艰难最有价值的，他们被称为真正的先驱。牛顿也曾说过，他不过是站在巨人的肩上。你，我，更是如此。

本次文章的大纲：

1----线性学习器之感知机

2----非线性学习器之Mercer定理

3----常用损失函数分析

1----线性学习器

1-1----感知机

这个感知机算法是1956 年提出的，年代久远，依然影响着当今，当然，可以肯定的是，此算法亦非最优，后续会有更详尽阐述。不过，有一点，你必须清楚，这个算法是为了干嘛的：不断的训练试错以期寻找一个合适的超平面（是的，就这么简单）。

下面，举个例子。如下图所示，凭我们的直觉可以看出，图中的红线是最优超平面，蓝线则是根据感知机算法在不断的训练中，最终，若蓝线能通过不断的训练移动到红线位置上，则代表训练成功。

既然需要通过不断的训练以让蓝线最终成为最优分类超平面，那么，到底需要训练多少次呢？Novikoff 定理告诉我们当间隔是正的时候感知机算法会在有限次数的迭代中收敛，也就是说Novikoff 定理证明了感知机算法的收敛性，即能得到一个界，不至于无穷循环下去。

感知机

定理 Novikoff 定理

如果分类超平面存在，仅需在序列S 上迭代几次，在界为(2R/r)^2的错误次数下就可以找到分类超平面，算法停止。这里R = max1≤i≤l ∥xi∥，r 为扩充间隔。

同时有一点得注意：感知机算法虽然可以通过简单迭代对线性可分数据生成正确分类的超平面，但不是最优效果，那怎样才能得到最优效果呢，就是上文中第一部分所讲的寻找最大分类间隔超平面。

感知机分类的伪代码形式

2---非线性学习器

2-1----Mercer定理

定理 Mercer 定理

如果函数是Rn × Rn → R 上的映射。那么如果是一个有效核函数（也称为Mercer 核函数），那么当且仅当对于训练样例{x1; x2; ..... ; xn}，其相应的核函数矩阵是对称半正定的。

要理解这个Mercer 定理，先要了解什么是半正定矩阵，要了解什么是半正定矩阵，先得知道什么是正定矩阵.请查阅相关资料。

3----常用损失函数

有这么一句话“支持向量机（SVM）是90 年代中期发展起来的基于统计学习理论的一种机器学习方法，通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。”但初次看到的读者可能并不了解什么是结构化风险，什么又是经验风险。要了解这两个所谓的“风险”，还得又从监督学习说起。

监督学习实际上就是一个经验风险或者结构风险函数的最优化问题。风险函数度量平均意义下模型预测的好坏，模型每一次预测的好坏用损失函数来度量。它从假设空间F 中选择模型f 作为决策函数，对于给定的输入X，由f(X) 给出相应的输出Y ，这个输出的预测值f(X) 与真实值Y 可能一致也可能不一致，用一个损失函数来度量预测错误的程度。损失函数记为L(Y, f(X))。

常用的损失函数有以下几种（以下基本引用自《统计学习方法》）：