支持向量机的基础概述

大数据观察

了解大数据,关注大数据观察吧!

每个想了解最新大数据资讯的人,都关注了我

文 / 数据君

支持向量机是Vapnik等人于1995年率先提出的,近来来机器学习研究的一个重大成果。

与传统的神经网络技术相比,支持向量机不仅结构简单,而且各项技术的性能也明显提升,因此它成为当今机器学习领域的热点之一。

作为一种新的分类方法,支持向量机以结构风险最小为原则。在线性的情况下,就在原空间寻找两类样本的最优分类超平面。在非线性的情况下,它使用一种非线性的映射,将原训练集数据映射到较高的维上。

在新的维上,它搜索线性最佳分离超平面。使用一个适当的对最够高维的非线性映射,两类数据总可以被超平面分开。

支持向量机的基本概念如下:

设给定的训练样本集为{(x1,y1),(x2,y2),...,(xn,yn)},其中xi∈Rn,y∈{-1,1}。

再假设该训练集可被一个超平面线性划分,设该超平面记为(w,x)+b=0.

支持向量机的基本思想可用下图情况举例说明:

图中圆形和方形代表两类样本,H为分类线,H1,H2,分别为过各类样本中离分类线最近的样本并且平行于分类线的直线,它们之间的距离叫做分类间隔。所谓的最优分类线就是要求分类线不但能将两类正确分开,而且能使分类间隔最大。推广到高维空间,最优分类线就成了最优分类面。

其中,距离超平面最近的一类向量被称为支持向量,一组支持向量可以唯一地确定一个超平面。

通过学习算法,SVM可以自动寻找出那些对分类有较好的适应能力和较高的分类准确率。

支持向量机的缺点是训练数据较大,但是,它的优点也是很明显的——对于复杂的非线性的决策边界的建模能力高度准确,并且也不太容易过拟合(过拟合,是指模型在训练的时候对样本“模拟”过好,不能反映真实的输入输出函数关系,所以一旦模型面对新的应用数据的时候,就表现为不准确的程度较大。)。

支持向量机主要用在预测、分类这样的实际分析需求场景中。

主题 |支持向量机

插图 | 网络来源

作 者 介 绍

数据君:)

了解大数据,关注大数据观察

部分图文来自网络,侵权则删

我想给你一个理由 继续面对这操蛋的生活

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181024B1B98R00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券