Stanford机器学习笔记-8. 支持向量机(SVMs)概述

8. Support Vector Machines(SVMs)

Content 8. Support Vector Machines(SVMs)       8.1 Optimization Objection       8.2 Large margin intuition       8.3 Mathematics Behind Large Margin Classification       8.4 Kernels       8.5 Using a SVM         8.5.1 Multi-class Classification         8.5.2 Logistic Regression vs. SVMs

8.1 Optimization Objection

支持向量机(Support Vector Machine: SVM)是一种非常有用的监督式机器学习算法。首先回顾一下Logistic回归,根据log()函数以及Sigmoid函数的性质,有:

同时,Logistic回归的代价函数(未正则化)如下:

为得到SVM的代价函数,我们作如下修改:

因此,对比Logistic的优化目标

SVM的优化目标如下:

注1:事实上,上述公式中的Cost0与Cost1函数是一种称为hinge损失替代损失(surrogate loss)函数,其他常见的替代损失函数有指数损失对率损失,具体参见《机器学习》P129 周志华)

注2:注意参数C和λ的对应关系: C与(1 / λ)成正相关。

8.2 Large margin intuition

根据8.1中的代价函数,为使代价函数最小,有如下结论:

现假设C很大(如C=100000),为使代价函数最小,我们希望

所以代价函数就变为:

所以问题就变成:

该问题最后的优化结果是找到具有"最大间隔"(maximum margin)的划分超平面,所以支持向量机又称大间距分类器(large margin classifier)。那么什么是间隔? 为什么这样优化就可以找到最大间隔?首先,我们通过图8-1所示的二维的0/1线性分类情况来直观感受。

图8-1 SVM Decision Boundary: Linearly separable case

直观上,应该去找位于两类训练样本"正中间"的划分超平面,即图8-1的黑色直线(二维),因为该划分超平面对训练样本局部扰动的"容忍"性最好。例如,图中的粉色和绿色直线,一旦输入数据稍有变化,将会得到错误的预测。换言之,这个划分超平面所产生的分类结果是最鲁棒的,对要预测数据集的泛化能力最强。而两条蓝色直线之间的距离就称为间隔(margin)。下一节将从数学角度来解释间隔与最大间隔的优化原理。

8.3 Mathematics Behind Large Margin Classification

首先介绍一些数学知识。

  • 2-范数(2-norm): 也可称长度(length),是二维或三维空间向量长度的推广,向量u记为||u||。例如,对于向量u = [ u1, u2, u3, u4],||u|| = sqrt(u1^2 + u2^2 + u3^2 + u4^2)
  • 向量内积(Vector Inner Product): 设向量a = [a1, a2, … , an],向量b = [b1, b2, … , bn],a和b的的内积定义为:a · b = a1b1 + a2b2 + … + anbn 。向量内积是几何向量数量积(点积)的推广,可以理解为向量a在向量b上的投影长度(范数)和向量b的长度的乘积。
图8-2 两种不同间距的情况

8.4 Kernels

上述的讨论都是基于线性可分的样本,即存在一个划分超平面可以将训练样本正确分类,然而现实世界存在大量复杂的,非线性分类问题(如4.4.2节的异或/同或问题)。Logistic回归处理非线性问题可以通过引入多项式特征量作为新的特征量;神经网络通过引入隐藏层,逐层进化解决非线性分类问题;而SVM是通过引入核函数(kernel function)来解决非线性问题。具体做法如下:

对于第二个问题,常用的核函数有线性核,高斯核,多项式核,Sigmoid核,拉普拉斯核等,现以常用的高斯核(Gaussian)为例。

高斯核具有如下性质:

图8-3 参数对高斯核的影响举例
  • 如何选择参数?

下面对SVM的参数对偏差和方差的影响做简要分析:

  • C: 由于C和(1 / λ)正相关,结合6.4.2节对λ的分析有:

8.5 Using a SVM

上文简单的介绍了SVM的优化原理以及核函数的使用方式。在实际应用SVM中,我们不需要自己去实现SVM的训练算法来得到参数

通常是使用现有的软件包(如liblinear, libsvm)。

但是下面的工作是我们需要做的:

  • 选择参数C的值
  • 选择并实现核函数
    • 如果核函数带参数,需要选择核函数的参数,例如高斯核需要选择
    • 如果无核(选择线性核),即给出线性分类器,适用于n大,m小的情况
    • 选择非线性核(如高斯核),适用于n小,m大的情况

下面是需要注意的地方:

  • 在使用核函数之前要对特征量进行规范化
  • 并不是所有的函数是有效的核函数,它们必须满足Mercer定理。
  • 如果想要通过训练得到参数C或者核函数的参数,应该是在训练集和交叉检验集上进行,,参见6.3节

8.5.1 Multi-class Classification

8.5.2 Logistic Regression vs. SVMs

参考:《机器学习》 周志华

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CreateAMind

如何理解深度学习中的deconvolution networks?

谭旭 https://www.zhihu.com/question/43609045/answer/132235276

1041
来自专栏利炳根的专栏

学习笔记CB009:人工神经网络模型、手写数字识别、多层卷积网络、词向量、word2vec

由n个输入特征得出与输入特征几乎相同的n个结果,训练隐藏层得到意想不到信息。信息检索领域,模型训练合理排序模型,输入特征,文档质量、文档点击历史、文档前链数目、...

36115
来自专栏SIGAI学习与实践平台

视觉多目标跟踪算法综述(上)-附开源代码下载链接整理

目标跟踪是机器视觉中一类被广为研究的重要问题,分为单目标跟踪与多目标跟踪。前者跟踪视频画面中的单个目标,后者则同时跟踪视频画面中的多个目标,得到这些目标的运动轨...

2812
来自专栏机器学习算法与Python学习

机器学习(7) -- k-means 聚类

根据大家的提议,从今天起每次算法介绍完之后会给大家一个用python编写的实例刚打架参考 Clustering  9. Clustering     9.1...

3385
来自专栏机器之心

深度 | 随机计算图:在随机结点中执行反向传播的新方法

2668
来自专栏AI科技大本营的专栏

一文概览主要语义分割网络:FCN,SegNet,U-Net...

图像的语义分割是将输入图像中的每个像素分配一个语义类别,以得到像素化的密集分类。虽然自 2007 年以来,语义分割/场景解析一直是计算机视觉社区的一部分,但与计...

1812
来自专栏机器学习算法与Python学习

收藏!机器学习与深度学习面试问题总结.....

2017
来自专栏PPV课数据科学社区

收藏!机器学习与深度学习面试问题总结.....

后向传播是在求解损失函数L对参数w求导时候用到的方法,目的是通过链式法则对参数进行一层一层的求导。这里重点强调:要将参数进行随机初始化而不是全部置0,否则所有隐...

902
来自专栏深度学习思考者

深入浅出——搞懂卷积神经网络的过拟合、梯度弥散、batchsize的影响的问题(二)

  上一篇主要是对卷积神经网络的整个训练过程中公式以及误差的推导给出详细的分析。   博客地址:https://cloud.tencent.com/deve...

3119
来自专栏钱塘大数据

2018AI学习清单丨150个最好的机器学习和Python教程

机器学习的发展可以追溯到1959年,有着丰富的历史。这个领域也正在以前所未有的速度进化。在今年秋季,开始准备博士项目的时候,精选了一些有关机器学习和NLP的优质...

3927

扫码关注云+社区