【分类战车SVM】第一话:开题话

分类战车SVM

(第一话:开题话)


开题诗:

KKT条件, 像绵延起伏的万水千山 隔断了我的视线, 却隔不断我对远方的期盼 少年傲然,曾经,要追寻生命的最优参 我倚核函数之剑迭代循环, 穿过水榭,越过山峦, 到达SMO算法的彼端 人生暮然,原来,你才是我生命的最优参。


回复“SVM”查看本《分类战车SVM》系列的内容:

第一话:开题话

第二话:线性分类

第三话:最大间隔分类器

第四话:拉格朗日对偶问题(原来这么简单!)

第五话:核函数(哦,这太神奇了!)

第六话:SMO算法(像Smoke一样简单!)

附录:用Python做SVM模型

转载请注明来源


大家好,今天开始给大家介绍机器学习世界的一种新武器——支持向量机,代号为SVM。

(1)支持向量机的出身:新贵家族“模式识别”

数说君曾经介绍过logistic回归模型(在微信公众号“数说工作室”中回复“logit1”和“logit2”查看),实际上它是一个“线性分类器”,比如,我们用客户的收入、年龄去判断该客户流失/不流失的概率:

P(Y=流失)=收入+年龄

这是一个很简单的分类模型,它试图根据某人的收入和年龄来区分他“流失/不流失”的可能性。

其实,它的原理也不是那么简单,因为我不想一开篇就说什么用梯度下降搜索方法去寻找一个可以实现“最大似然函数”blablabla这样凶残的东西。

但是现在,我不但说了,我还要介绍一个更为庞大复杂的家伙,它,叫SVM,中文名是支~持~向~量~机~。哦,好给力的名字~。

Logistic模型和SVM都属于线性分类器,线性分类器又是模式识别大家族的一种。大概的族谱如下图所示:

支持向量机就是模式识别家族的一辆分类战车,撕开一切难分的样本。

(2)SVM使命:出生就带着对抗旧世界的战斗基因

SVM是一种模式识别的新技术,相比传统的统计模式识别机器,它先进的装备可以将很多难分的样本给活生生的撕开。

  • 小样本——SVM配备“支持向量”识别系统,精准打击

SVM要求的样本数是相对比较少,仅仅用到哪些称之为“支持向量”的样本。

  • 非线性——SVM嵌入了尖端前沿的“高维映射”技术。

SVM擅长应付数据线性不可分的情况。像下面的两类点,一个线性函数是分不开的,而SVM可以将样本映射到高维空间来区分(怎么突然想到《星际穿越》了,不管怎样,在高维度空间再看原来的很多问题,都变得简单很多)。

  • 高维度——SVM配备了“核函数”子装置,有效节省成本,轻便节能。

SVM引入核函数,避免了“维数灾难”(什么是“维数灾难”?在微信公众号“数说工作室”中回复“wszn”查看),大大减小了计算量,可以处理几万维的数据。相比之下,很多其他分类器,比如KNN,需要用到所有样本,如果维数再高一位,计算量则会非常之大(关于KNN,数说君也写过,但微信上没有,可以去微博@数说工作室网站里搜)。

  • 关注结构风险——SVM装备风险自我识别系统,为驰骋疆场提供全面的保驾护航

什么叫风险?就是真实值与拟合值的差,一个模型拟合出来的值,如果与真实值很相近,显然风险就很小。

在统计建模中,我们常常把训练出来的模型在已知样本中进行试分类,与真实值进行比较,这个差值叫做“经验风险”,一般的机器学习方法都关注这个经验风险,准确率常常能达到90%。但是把这个模型拿去真正给那些未知样本分类的时,你会发现很多模型成绩一塌糊涂——差值很大,准确率很低。也就是推广能力很差。

而SVM不仅关注经验风险,也关注模型向未知世界推广的风险——置信风险:

结构风险=经验风险+置信风险

经验风险:分类器在样本上的误差;

置信风险:表达了我们在多大程度上可以信任分类器在给定样本上分类的结果,是一个区间。

SVM的目标,是使得结构风险最小化。

(3)SVM的战场:金融、生物、互联网、工业4.0…..

因为是分类器,所以SVM的主要用途还是分类。比如在金融上,可以处理时间序列模型,判断未来股票的涨跌;在生物上,生物特征的融合识别;工业上,自适应信号处理、汽车的故障诊断、机器人的各种对准匹配确认等等。

(4)本系列

以上说了那么多,你一定很想了解这个高大上的新机器,什么是“支持向量”识别系统、什么“高维映射”技术、“核函数”子装置、风险自我识别系统等等,以及它如何应用在金融工业上,本系列下面的文章将分别介绍,力图保持数说工作室“简洁、易懂、不装逼”的传统风格,希望各位能有“读着读着,不知不觉的就把SVM给读懂了,好开心呀!”的感觉。

特别说明:这里的机,其实并不是真的机器,而是一种算法。


原文发布于微信公众号 - 数说工作室(shushuojun)

原文发表时间:2015-04-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

8张图看苹果公开的第一篇 AI 论文

【新智元导读】 苹果终于发表了AI方面的第一篇论文。12月22日,苹果题为《Learning from Simulated and Unsupervised I...

4326
来自专栏机器学习算法与Python学习

长文 | 一文读懂什么是机器学习

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 在进入正题前,我想大家心中可能会有一...

3635
来自专栏AI科技评论

Uber 论文5连发宣告神经演化新时代,深度强化学习训练胜过 SGD 和策略梯度

AI 科技评论按:一直低调的 Uber AI 研究院近日连发 5 篇论文,介绍了他们在基因算法(genetic algorithm)、突变方法(mutation...

3686
来自专栏深度学习

人脸识别技术发展及实用方案设计

人脸识别技术不但吸引了Google、Facebook、阿里、腾讯、百度等国内外互联网巨头的大量研发投入,也催生了Face++、商汤科技、Linkface、中科云...

5237
来自专栏新智元

自然语言处理终极方向:深度学习用于自然语言处理的5大优势

【新智元导读】在自然语言处理领域,深度学习的承诺是:给新模型带来更好的性能,这些新模型可能需要更多数据,但不再需要那么多的语言学专业知识。 在自然语言处理领域,...

3866
来自专栏AI科技评论

澳门大学讲座教授陈俊龙:从深度强化学习到宽度强化学习 - 结构,算法,机遇及挑战

AI 科技评论按:2018 年 5 月 31 日-6 月 1 日,中国自动化学会在中国科学院自动化研究所成功举办第 5 期智能自动化学科前沿讲习班,主题为「深度...

1566
来自专栏数据派THU

【独家】深扒Yann LeCun清华演讲中提到的深度学习与人工智能技术(PPT+视频)

本文长度为3000字,建议阅读10分钟 本文为Yann LeCun在清华大学做的关于深度学习与人工智能技术的演讲梗概。 姚期智先生引言: 非常荣幸来给大家介...

2317
来自专栏大数据文摘

我从吴恩达深度学习课程中学到的21个心得:加拿大银行首席分析师“学霸“笔记分享

1733
来自专栏机器之心

DeepMind推出深度学习与强化学习进阶课程(附视频)

课程地址:https://www.youtube.com/playlist?list=PLqYmG7hTraZDNJre23vqCGIVpfZ_K2RZs

921
来自专栏机器之心

使用认知心理学解释深度神经网络:DeepMind新研究破解AI黑箱问题

选自DeepMind 机器之心编译 近日,DeepMind在其官方博客上发表了一篇题为《Interpreting Deep Neural Networks us...

3337

扫码关注云+社区

领取腾讯云代金券