【分类战车SVM】第一话:开题话

分类战车SVM

(第一话:开题话)

大家好,今天开始给大家介绍机器学习世界的一种新武器——支持向量机,代号为SVM。

(1)支持向量机的出身:新贵家族“模式识别”

数说君曾经介绍过logistic回归模型(在微信公众号“数说工作室”中回复“logit1”和“logit2”查看),实际上它是一个“线性分类器”,比如,我们用客户的收入、年龄去判断该客户流失/不流失的概率:

P(Y=流失)=收入+年龄

这是一个很简单的分类模型,它试图根据某人的收入和年龄来区分他“流失/不流失”的可能性。

其实,它的原理也不是那么简单,因为我不想一开篇就说什么用梯度下降搜索方法去寻找一个可以实现“最大似然函数”blablabla这样凶残的东西。

但是现在,我不但说了,我还要介绍一个更为庞大复杂的家伙,它,叫SVM,中文名是支~持~向~量~机~。哦,好给力的名字~。

Logistic模型和SVM都属于线性分类器,线性分类器又是模式识别大家族的一种。大概的族谱如下图所示:

支持向量机就是模式识别家族的一辆分类战车,撕开一切难分的样本。

(2)SVM使命:出生就带着对抗旧世界的战斗基因

SVM是一种模式识别的新技术,相比传统的统计模式识别机器,它先进的装备可以将很多难分的样本给活生生的撕开。

  • 小样本——SVM配备“支持向量”识别系统,精准打击

SVM要求的样本数是相对比较少,仅仅用到哪些称之为“支持向量”的样本。

  • 非线性——SVM嵌入了尖端前沿的“高维映射”技术。

SVM擅长应付数据线性不可分的情况。像下面的两类点,一个线性函数是分不开的,而SVM可以将样本映射到高维空间来区分(怎么突然想到《星际穿越》了,不管怎样,在高维度空间再看原来的很多问题,都变得简单很多)。

  • 高维度——SVM配备了“核函数”子装置,有效节省成本,轻便节能。

SVM引入核函数,避免了“维数灾难”(什么是“维数灾难”?在微信公众号“数说工作室”中回复“wszn”查看),大大减小了计算量,可以处理几万维的数据。相比之下,很多其他分类器,比如KNN,需要用到所有样本,如果维数再高一位,计算量则会非常之大(关于KNN,数说君也写过,但微信上没有,可以去微博@数说工作室网站里搜)。

  • 关注结构风险——SVM装备风险自我识别系统,为驰骋疆场提供全面的保驾护航

什么叫风险?就是真实值与拟合值的差,一个模型拟合出来的值,如果与真实值很相近,显然风险就很小。

在统计建模中,我们常常把训练出来的模型在已知样本中进行试分类,与真实值进行比较,这个差值叫做“经验风险”,一般的机器学习方法都关注这个经验风险,准确率常常能达到90%。但是把这个模型拿去真正给那些未知样本分类的时,你会发现很多模型成绩一塌糊涂——差值很大,准确率很低。也就是推广能力很差。

而SVM不仅关注经验风险,也关注模型向未知世界推广的风险——置信风险:

结构风险=经验风险+置信风险

经验风险:分类器在样本上的误差;

置信风险:表达了我们在多大程度上可以信任分类器在给定样本上分类的结果,是一个区间。

SVM的目标,是使得结构风险最小化。

(3)SVM的战场:金融、生物、互联网、工业4.0…..

因为是分类器,所以SVM的主要用途还是分类。比如在金融上,可以处理时间序列模型,判断未来股票的涨跌;在生物上,生物特征的融合识别;工业上,自适应信号处理、汽车的故障诊断、机器人的各种对准匹配确认等等。

(4)本系列

以上说了那么多,你一定很想了解这个高大上的新机器,什么是“支持向量”识别系统、什么“高维映射”技术、“核函数”子装置、风险自我识别系统等等,以及它如何应用在金融工业上,本系列下面的文章将分别介绍,力图保持数说工作室“简洁、易懂、不装逼”的传统风格,希望各位能有“读着读着,不知不觉的就把SVM给读懂了,好开心呀!”的感觉。

特别说明:这里的机,其实并不是真的机器,而是一种算法。

原文发布于微信公众号 - 数说工作室(shushuojun)

原文发表时间:2014-12-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | MINIEYE首席科学家吴建鑫解读ICCV入选论文:用于网络压缩的滤波器级别剪枝算法ThiNet

机器之心报道 作者:高静宜 近日,南京大学计算机科学与技术系教授、MINIEYE 首席科学家吴建鑫所在团队的一篇论文《ThiNet: 一种用于深度神经网络压缩的...

42780
来自专栏计算机视觉战队

深度学习的昨天、今天和明天

机器学习是人工智能领域的一个重要学科。 自从20世纪80年代以来, 机器学习在算法、理论和应用等方面都获得巨大成功。2006年以来, 机器学习领域中一个叫“ 深...

8830
来自专栏PPV课数据科学社区

大数据分析到底需要多少种工具

1.分类方法大比武 大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等,而监督学习又包括分类学习、回归学习、排序学习、匹配学习...

36550
来自专栏AI科技评论

大会直击|微软亚洲研究院刘铁岩:深度学习成功的秘密

9月9日,2016湖南人工智能湖南论坛在长沙举办,大会期间,来自国内外的许多顶级专家在会上给我们做了报告,下面是雷锋网根据微软亚洲研究院刘铁岩教授的现场精华整理...

35460
来自专栏AI科技评论

动态 | 如何让无人机灵活穿越满是障碍的房间?训练一个循环神经网络试试看

如今,深度学习已经在语音识别、计算机视觉等多个应用领域取得了重大突破。然而,要说到它在机器人领域的发展,那就要另当别论了——深度学习在机器人领域,不仅发展速度慢...

35390
来自专栏达观数据

干货分享|达观数据情感分析架构演进

在互联网日益发达的今天,许多消费者不管是通过线上电商网站或者线下门店购买商品后,包括买车、买手机等,都会到品牌官网或者一些专业网站甚至社交媒体去发表对产品的评价...

561100
来自专栏计算机视觉战队

简单易懂的讲解深度学习(入门系列之四)

在前一个小节中,简单地谈了谈什么是“M-P神经元模型”,顺便用生活中生动的小案例,把激活函数和卷积函数的概念撸了一遍。下笔之处,尽显“神经”。当然这里所谓的“神...

11330
来自专栏量子位

三角兽首席科学家分享实录:基于对抗学习的生成式对话模型

主讲人:三角兽首席科学家 王宝勋 颜萌 整理编辑 量子位 出品 | 公众号 QbitAI 对抗学习和对话系统都是近年来的新热点。今年7月,三角兽研究组与哈工大I...

38060
来自专栏数据科学与人工智能

【大规模机器学习】从NIPS2014大会看机器学习新趋势

编者按:John Platt是微软的杰出科学家,也是微软在机器学习领域的领军人物。加入微软17年,一直在机器学习领域埋首耕耘。Platt也是SVM最快的加速算法...

26550
来自专栏新智元

【10亿+数据集,ImageNet千倍】深度学习未来,谷歌认数据为王

【新智元导读】数据重要还是算法重要?一篇新的论文或许给出了答案。使用一个 300 倍于 ImageNet 的新数据集,谷歌研究人员发现,随着数据增长,模型完成计...

42440

扫码关注云+社区

领取腾讯云代金券