来！一起捋一捋机器学习分类算法

文章来源：企鹅号 - 统计学习666

重磅干货，第一时间送达

大数据文摘出品

来源：builtin

编译：邢畅、刘兆娜、李雷、钱天培

说起分类算法，相信学过机器学习的同学都能侃上一二。

可是，你能够如数家珍地说出所有常用的分类算法，以及他们的特征、优缺点吗？比如说，你可以快速地回答下面的问题么:

KNN算法的优缺点是什么？

Naive Bayes算法的基本假设是什么？

entropy loss是如何定义的？

最后，分类算法调参常用的图像又有哪些？

答不上来？别怕！一起来通过这篇文章回顾一下机器学习分类算法吧（本文适合已有机器学习分类算法基础的同学）。

机器学习是一种能从数据中学习的计算机编程科学以及艺术，就像下面这句话说得一样。

机器学习是使计算机无需显式编程就能学习的研究领域。

——阿瑟·塞缪尔，1959年

不过还有一个更好的定义：

“如果一个程序在使用既有的经验（E）执行某类任务（T）的过程中被认为是“具备学习能力的”，那么它一定需要展现出:利用现有的经验（E），不断改善其完成既定任务（T）的性能（P）的特性。”

——Tom Mitchell, 1997

例如，你的垃圾邮件过滤器是一个机器学习程序，通过学习用户标记好的垃圾邮件和常规非垃圾邮件示例，它可以学会标记垃圾邮件。系统用于学习的示例称为训练集。在此案例中，任务（T）是标记新邮件是否为垃圾邮件，经验（E）是训练数据，性能度量（P）需要定义。例如，你可以定义正确分类的电子邮件的比例为P。这种特殊的性能度量称为准确度，这是一种有监督的学习方法，常被用于分类任务。

机器学习入门指南：

https://builtin.com/data-science/introduction-to-machine-learning

监督学习

在监督学习中，算法从有标记数据中学习。在理解数据之后，该算法通过将模式与未标记的新数据关联来确定应该给新数据赋哪种标签。

监督学习可以分为两类：分类和回归。

分类问题预测数据所属的类别；

分类的例子包括垃圾邮件检测、客户流失预测、情感分析、犬种检测等。

回归问题根据先前观察到的数据预测数值；

回归的例子包括房价预测、股价预测、身高-体重预测等。

机器学习新手的十大算法之旅：

https://builtin.com/data-science/tour-top-10-algorithms-machine-learning-newbies

分类问题

分类是一种基于一个或多个自变量确定因变量所属类别的技术。

分类用于预测离散响应

逻辑回归

逻辑回归类似于线性回归，适用于因变量不是一个数值字的情况 (例如，一个“是/否”的响应)。它虽然被称为回归，但却是基于根据回归的分类，将因变量分为两类。

如上所述，逻辑回归用于预测二分类的输出。例如，如果信用卡公司构建一个模型来决定是否通过向客户的发行信用卡申请，它将预测客户的信用卡是否会“违约”。

首先对变量之间的关系进行线性回归以构建模型，分类的阈值假设为0.5。

然后将Logistic函数应用于回归分析，得到两类的概率。

该函数给出了事件发生和不发生概率的对数。最后，根据这两类中较高的概率对变量进行分类。

K-近邻算法（K-NN）

K-NN算法是一种最简单的分类算法，通过识别被分成若干类的数据点，以预测新样本点的分类。K-NN是一种非参数的算法，是“懒惰学习”的著名代表，它根据相似性（如，距离函数）对新数据进行分类。

K-NN能很好地处理少量输入变量（p）的情况，但当输入量非常大时就会出现问题。

支持向量机（SVM）

支持向量机既可用于回归也可用于分类。它基于定义决策边界的决策平面。决策平面（超平面）可将一组属于不同类的对象分离开。

在支持向量的帮助下，SVM通过寻找超平面进行分类，并使两个类之间的边界距离最大化。

SVM中超平面的学习是通过将问题转化为使用一些某种线性代数转换问题来完成的。（上图的例子是一个线性核，它在每个变量之间具有线性可分性）。

对于高维数据，使用可使用其他核函数，但高维数据不容易进行分类。具体方法将在下一节中阐述。

核支持向量机

核支持向量机将核函数引入到SVM算法中，并将其转换为所需的形式，将数据映射到可分的高维空间。

核函数的类型包括：

前文讨论的就是线性SVM。

多项式核中需要指定多项式的次数。它允许在输入空间中使用曲线进行分割。

径向基核（radial basis function, RBF）可用于非线性可分变量。使用平方欧几里德距离，参数的典型值会导致过度拟合。sklearn中默认使用RBF。

类似于与逻辑回归类似，sigmoid核用于二分类问题。

径向基核（RBF：Radial Basis Function ）

RBF核支持向量机的决策区域实际上也是一个线性决策区域。RBF核支持向量机的实际作用是构造特征的非线性组合，将样本映射到高维特征空间，再利用线性决策边界分离类。

因此，可以得出经验是：对线性问题使用线性支持向量机，对非线性问题使用非线性核函数，如RBF核函数。

朴素贝叶斯

朴素贝叶斯分类器建立在贝叶斯定理的基础上，基于特征之间互相独立的假设（假定类中存在一个与任何其他特征无关的特征）。即使这些特征相互依赖，或者依赖于其他特征的存在，朴素贝叶斯算法都认为这些特征都是独立的。这样的假设过于理想，朴素贝叶斯因此而得名。

在朴素贝叶斯的基础上，高斯朴素贝叶斯根据二项（正态）分布对数据进行分类。

P(class|data)表示给定特征（属性）后数据属于某类（目标）的后验概率。给定数据，其属于各类的概率大小就是我们要计算的值。

P(class)表示某类的先验概率。

P(data|class)表示似然，是指定类别时特征出现的概率。

P(data)表示特征或边际似然的先验概率。

步骤

1、计算先验概率

P(class) = 类中数据点的数量/观测值的总数量

P(yellow) = 10/17

P(green) = 7/17

2、计算边际似然

P(data) = 与观测值相似的数据点的数量/观测值的总数量

P(?) = 4/17

该值用于检查各个概率。

3、计算似然

P(data/class) = 类中与观测值相似的数量/类中点的总数量

P(?/yellow) = 1/7

P(?/green) = 3/10

4、计算各类的后验概率

5、分类

某一点归于后验概率高的类别，因为从上可知其属于绿色类的概率是75%根据其75%的概率这个点属于绿色类。

多项式、伯努利朴素贝叶斯是计算概率的其他模型。朴素贝叶斯模型易于构建，不需要复杂的参数迭代估计，这使得它对非常大的数据集特别有用。

决策树分类

决策树以树状结构构建分类或回归模型。它通过将数据集不断拆分为更小的子集来使决策树不断生长。最终长成具有决策节点（包括根节点和内部节点）和叶节点的树。最初决策树算法它采用采用Iterative Dichotomiser 3（ID3）算法来确定分裂节点的顺序。

信息熵和信息增益用于被用来构建决策树。

信息熵

信息熵是衡量元素无序状态程度的一个指标，即衡量信息的不纯度。

信息熵是衡量元素的无序状态的程度的一个指标，或者说，衡量信息的不纯度。

直观上说地理解，信息熵表示一个事件的确定性程度。信息熵度量样本的同一性，如果样本全部属于同一类，则信息熵为0；如果样本等分成不同的类别，则信息熵为1。

信息增益

信息增益测量独立属性间信息熵的变化。它试图估计每个属性本身包含的信息，构造决策树就是要找到具有最高信息增益的属性（即纯度最高的分支）。

信息增益测量独立属性间的信息熵的变化。它试图估计每个属性本身包含的信息，构造决策树就是要找到具有最高信息增益的属性（即纯度最高的分支）。

其中Gain（(T,X）)是特征X的信息增益。Entropy(T)是整个集合的信息熵，第二项Entropy(T,X)是特征X的信息熵。

采用信息熵进行节点选择时，通过对该节点各个属性信息增益进行排序，选择具有最高信息增益的属性作为划分节点，过滤掉其他属性。

决策树模型存在的一个问题是容易过拟合。因为在其决策树构建过程中试图通过生成长一棵完整的树来拟合训练集，因此却降低了测试集的准确性。

通过剪枝技术可以减少小决策树的过拟合问题。

分类的集成算法

集成算法是一个模型组。从技术上说，集成算法是单独训练几个有监督模型，并将训练好的模型以不同的方式进行融合，从而达到最终的得预测结果。集成后的模型比其中任何一个单独的模型都有更高的预测能力。

随机森林分类器

随机森林分类器是一种基于装袋（bagging）的集成算法，即自举助聚合法(bootstrap aggregation)。集成算法结合了多个相同或不同类型的算法来对对象进行分类（例如，SVM的集成，基于朴素贝叶斯的集成或基于决策树的集成）。

集成的基本思想是算法的组合提升了最终的结果。

深度太大的决策树容易受过拟合的影响。但是随机森林通过在随机子集上构建决策树防止过拟合，主要原因是它会对所有树的结果进行投票的结果是所有树的分类结果的投票，从而消除了单棵树的偏差。

随机森林在决策树生增长的同时为模型增加了额外的随机性。它在分割节点时，不是搜索全部样本最重要的特征，而是在随机特征子集中搜索最佳特征。这种方式使得决策树具有多样性，从而能够得到更好的模型。

梯度提升分类器

梯度提升分类器是一种提升集成算法。提升(boosting)算法是为了减少偏差而对弱分类器的而进行的一种集成方法。与装袋（bagging）方法构建预测结果池不同，提升算法是一种分类器的串行方法，它把每个输出作为下一个分类器的输入。通常，在装袋算法中，每棵树在原始数据集的子集上并行训练，并用所有树预测结果的均值作为模型最终的预测结果；梯度提升模型，采用串行方式而非并行模式获得预测结果。每棵决策树预测前一棵决策树的误差，因而使误差获得提升。

梯度提升树的工作流程

使用浅层决策树初始化预测结果。

计算残差值（实际预测值）。

构建另一棵浅层决策树，将上一棵树的残差作为输入进行预测。

用新预测值和学习率的乘积作为最新预测结果，更新原有预测结果。

重复步骤2-4，进行一定次数的迭代（迭代的次数即为构建的决策树的个数）。

发表于: 2019-08-122019-08-12 21:26:32
原文链接：https://kuaibao.qq.com/s/20190812A0QXKH00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

来！一起捋一捋机器学习分类算法

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐