通俗易懂快速理解支持向量机（SVM）

用户7569543

发布于 2020-07-17 14:13:21

1.1K0

发布于 2020-07-17 14:13:21

文章被收录于专栏：数据挖掘与AI算法数据挖掘与AI算法

支持向量机（Support Vector Machine，简称为SVM）是一种监督式学习的方法，可以用来解决分类或回归问题。

在样本空间中，划分超平面可以通过如下线性方程来描述

其中w为法向量，决定了超平面的方向，b为位移项，决定了超平面与原点之间的距离。显然，划分超平面可被法向量和位移确定。在分类问题中，SVM是尝试将向量映射到一个更高维的空间，然后在这个空间里建立一个具有最大间隔的超平面。如下图所示，哪条直线是我们要找的具有最大间隔的超平面呢？

显然是中间灰色的这条直线，因为对于给定的训练样本集D={(x1,y1), (x2,y2),… (xn,yn)}，yi属于{-1，+1}，希望能找出一个超平面，把不同类别（直线两边的红蓝小圆点）的数据集分开，对于线性可分的数据集来说，这样的超平面有无穷多个，而最优的超平面就是分隔间距最大的中间那个超平面。

平行超平面间的距离或差距越大，分类器（模型）的总误差越小。从分类的角度来看，SVM只考虑分类面附近的局部的点，即支持向量，如下图所示。而像逻辑回归这种算法要考虑全部样本的点，基于所有数据点的分布情况来构建分类边界。

注：处于两边虚线上的点统称为支持向量

以上是针对数据样本是线性可分的情况，但我们也经常会遇到一些线性不可分的情况，比如“异或”问题就不是线性可分的，对于这样的问题，我们可将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内仍然线性可分。如下图所示，从线性不可分到高维空间线性可分，这其中起关键作用的就是核函数，SVM中常用的核函数有线性核函数、多项式核函数、径向基（高斯）核函数。

在前面的讨论中，我们一直假定训练样本在样本空间或特征空间中是线性可分的，即存在一个超平面能将不同类的样本完全划分开，然而在现实中往往很难确定合适的核函数使得训练样本在特征空间中线性可分，但我们仍然认为SVM它是较好的分类器，因为在我们的训练数据中通常会存在一些异常值，也就是我们俗称的噪声数据。如果模型在训练（学习）的时候把这些“噪声”数据都学到了，那模型往往会过拟合，这是机器学习中的大忌，所以SVM在拟合时会保证一定的容错性，忽略异常值来保证全局预测结果的准确性，这就是我们通常所说的“软间隔”，下图中被红色⭕️圈起来的样本，被认为是预测正确的。