支持向量机的基础概述

文章来源：企鹅号 - 大数据观察

大数据观察

了解大数据，关注大数据观察吧！

每个想了解最新大数据资讯的人，都关注了我

文 / 数据君

支持向量机是Vapnik等人于1995年率先提出的，近来来机器学习研究的一个重大成果。

与传统的神经网络技术相比，支持向量机不仅结构简单，而且各项技术的性能也明显提升，因此它成为当今机器学习领域的热点之一。

作为一种新的分类方法，支持向量机以结构风险最小为原则。在线性的情况下，就在原空间寻找两类样本的最优分类超平面。在非线性的情况下，它使用一种非线性的映射，将原训练集数据映射到较高的维上。

在新的维上，它搜索线性最佳分离超平面。使用一个适当的对最够高维的非线性映射，两类数据总可以被超平面分开。

支持向量机的基本概念如下：

设给定的训练样本集为{(x1,y1),(x2,y2),...,(xn,yn)},其中xi∈Rn,y∈{-1,1}。

再假设该训练集可被一个超平面线性划分，设该超平面记为（w，x）+b=0.

支持向量机的基本思想可用下图情况举例说明：

图中圆形和方形代表两类样本，H为分类线，H1，H2，分别为过各类样本中离分类线最近的样本并且平行于分类线的直线，它们之间的距离叫做分类间隔。所谓的最优分类线就是要求分类线不但能将两类正确分开，而且能使分类间隔最大。推广到高维空间，最优分类线就成了最优分类面。

其中，距离超平面最近的一类向量被称为支持向量，一组支持向量可以唯一地确定一个超平面。

通过学习算法，SVM可以自动寻找出那些对分类有较好的适应能力和较高的分类准确率。

支持向量机的缺点是训练数据较大，但是，它的优点也是很明显的——对于复杂的非线性的决策边界的建模能力高度准确，并且也不太容易过拟合（过拟合，是指模型在训练的时候对样本“模拟”过好，不能反映真实的输入输出函数关系，所以一旦模型面对新的应用数据的时候，就表现为不准确的程度较大。）。

支持向量机主要用在预测、分类这样的实际分析需求场景中。

主题 |支持向量机

插图 | 网络来源

作者介绍

数据君：）

了解大数据，关注大数据观察

部分图文来自网络，侵权则删

我想给你一个理由继续面对这操蛋的生活

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货