首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

白话SVM(三):svm要解决的分类问题

1、什么是分类

分类在机器学习中占据了半壁以上的江山,分类属于监督学习。所谓的监督学习指的是利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。

监督学习:使用已经有结果(标签)的样本集进行训练。如根据人类的身高、体重、头发等对人的性别进行分类。那么需要的训练集中包含身高、体重、头发、性别。其中性别是为了最终得到的数据,在训练的时候就有结果数据,那么这一类的机器学习过程交有监督的学习。类比无监督学习再反过来看有监督学习。

无监督学习:即样本中没有结果集(标签数据)如新闻的聚类。场景如下:现在有1万篇新闻,需要对其分为5类,事先并不知道要分为哪五类。这样的训练被称为无监督的机器学习。

通俗的总结为,样本中包含结果集,就是有监督的机器学习,反之,如果样本中只有特征值,那么训练的过程就被称为无监督机器学习。

Svm主要是解决有监督的分类问题。(这里说为主要是因为,svm也可解决回归问题,这不是我们主要讨论的内容)。

2、svm思想

我将用数学中对点的分类的问题解释svm要解决的问题。

图2-1

上图坐标系中,圆形及三角形为样本数据,太阳已知坐标值未知形状。那么凭着经验来讲,我们对太阳进行预测,会把它归类为三角。我们的经验就是,太阳距离三角形的范围更近,所以它应该分类为三角。这里我们心中的这个经验和判断过程就是机器学习中的分类器模型所要干的事情。

Svm分类的核心思想就是找到一根最优的线,这一根线的一侧是圆形另外一侧是三角形。如下图所示。因为太阳被分到了三角的一侧所以我们认为太阳这个数据应该是三角形。

图2-2

但是在这个例子中,存在很多满足这个条件的线,怎样找到最优的一根?如下图,哪一个分类效果最好?

图2-3

a b c三种分类结果都能把样本完全正确的进行分类,显然b的分类效果好一些。读到这句话,肯定有人疑问,这个显然是怎么来的。如果是以c为分类结果,那么对于新的预测数据太阳,分类器就会把太阳分到圆形的那个类里面,这直观上就应该能够看出来,这个分类大概率是错误的。同理如果以a为分类结果,那么新样本如果是空心圆数据,则会被分到三角类里面。都不能很好的达到效果。

读到这里,我们应该能够达到一个共识,就是b是这三个分类中效果最好的一个。那么,我们如何找到最好的一个分类器呢,这个分类器应该具备哪些特性?svm很好的回答了这个问题。

Svm分类器,就是寻找一条分类线(在多维空间这条线是一个超平面),能够正确切分数据,并且使得距离这根线(超平面)最近的点到线的距离最远。

一定要理解上面这句话,为了保证同学们能够理解,我会在接下来的内容中不断的去重复这句话。

理解:首先这根线或者超平面(以下使用线表示分类结果不再解释超平面的事情)可以正确切分样本(即图中的圆与三角),然后找到距离这根线最近的样本点,调整线,使得距离线最近的样本点到线的距离最远。这里有有个问题,就是在调整线的过程中,距离这根线最近的样本点也是变化的。所以,最终svm就是找到这么一条最佳的线。

a b c三种分类显然是b中距离直线最近的点到直线的距离最远。跟直观感觉相符!

那么如何来找到这个直线?下一章将进行介绍。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180610G0CUHE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券