scikit-learn系列之第五篇：分类算法筛查

文章来源：企鹅号 - 机器学习与神经科学

算法筛查(spot checking)用来发现可以很好解决机器学习问题的算法。在着手做之前，你永远也不知道哪种算法最契合你的数据。因此你必须尝试大量的算法，找出一个最有潜力的算法，继续深入挖掘。本文中会展示六种适用于分类问题的算法，我们可以使用scikit-learn进行算法筛查。

算法筛查

在为你的机器学习问题选择算法时，问题不是：我应该使用哪种算法？而是：哪些算法可以用于我的算法筛查？你可以推测哪些算法可能适合你的数据集，这是一个好的开始。我推荐尝试混合一些算法，看看哪一个可以最好的反映出你的数据结构。

1、尝试混合具有不同表征的算法 (instances and trees)。

2、尝试混合不同的学习算法 (different algorithms for learning the same type of representation)。

3、尝试混合不同的建模类型的算法 (linear and nonlinear functions or parametric and nonparametric)。

我们将了解6个分类算法，可以用于算法筛查。

两个线性机器学习算法：

1.Logistic Regression

2.Linear Discriminant Analysis

四个非线性的机器学习算：

1.K-Nearest Neighbors

2.Naive Bayes

3.Classification and Regression Trees

4.Support Vector Machines

使用Pima Indians onset of Diabetes 数据集。变量为数值型，是一个关于二分分类问题的数据。统一使用10-fold的交叉验证来展示如何进行算法筛选，使用平均的准确率来代表算法的表现。

6种算法

1、逻辑回归假设数值型输入，数值符合高斯分布，用于二分的分类问题。使用LogisticRegression类构建模型。

2、线性判别分析用于二分或者多分的分类问题。同样假设数值符合高斯分布。使用LinearDiscriminantAnalysis类构建模型。

3、K近邻使用距离的方法为新数据找到K个相似的实例，把邻居的平均作为预测结果。使用KNeighborsClassifier类构建模型。

4、朴素贝叶斯算法计算每个类别的概率和已知输入值的每个类别的条件概率。新的数据计算以上概率，假设它们彼此独立的情况下，做乘法。使用GaussianNB类构建模型。

5、分类和回归数(CART or just decision trees) 使用训练数据构建二分树。通过评价数据变量最小化cost函数来获得分割点。使用DecisionTreeClassifier类构建模型。

6、支持向量机找到一条线可以分离两类。与分割线最近的数据实例叫做支持向量，这些支持向量对分离线有决定性影响。该算法的一个要点是使用不同的核函数来建立模型。Radial Basis Function是默认的核函数。使用SVC类构建模型。

代码如下（在原代码的基础上做了一个循环）：

结果如下：

主要知识点

model_selection.KFold

model_selection.cross_val_score

results.mean

linear_model.LogisticRegression

discriminat_analysis.LinearDiscriminantAnalysis

neighbors.KNeighborsClassifier

naive_bayes.GaussianNB

tree.DecisionTreeClassifier

svm.SVC

发表于: 2018-05-182018-05-18 14:01:01
原文链接：https://kuaibao.qq.com/s/20180518G0V2PK00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

scikit-learn系列之第五篇：分类算法筛查

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐