scikit-learn随机森林分类实战

本文根据以前学习的知识,来一次相对完整的实战。

1.基础知识储备2.代码详解2.1导入数据集并获得数据信息

结果如下:

2.2 数据集划分为训练集和测试集

结果为:

由结果可知,采用随机抽取,三种不同样本的数量基本还是一致的。

2.2 采用标准模型学习并预测

正常运行,没有报错:

2.3 模型评估

结果如下:

混淆矩阵中,列标签为真实值,行标签为预测值。17个0(setosa)全预测正确,20个1(versicolor)有一个预测为了2(virginica),23个2有两个预测为了1。精确度为95%。

2.4 调参以及模型评估

采用网格搜索的方法遍历参数,以参数n_estimators以及max_features为例。

2.4.1 获得最佳参数

结果如下:

最佳模型参数并非系统默认值。

2.4.2 使用最佳模型预测

结果如下:

由结果可知,最佳的预测效果和默认的一样,这应该是由于样本数量较少的缘故,不过从侧面我们也可以看出,系统默认的各参数实际上预测的效果还是非常不错的。

3 小结

本文采用随机森林分类器,对鸢尾花数据进行学习,并采用网格搜索对参数进行优化。本文的流程是我们做机器学习的基本套路,各种细节后续将逐渐涉及。加油吧!

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180106G0RJL700?refer=cp_1026

扫码关注云+社区