文章/答案/技术大牛

发布

机器学习篇

共 26 篇文章

机器学习（二十五） ——adaboost算法与实现

机器学习（二十四） ——从图像处理谈机器学习项目流程

机器学习（二十三） —— 大数据机器学习(随机梯度下降与map reduce)

机器学习（二十二） ——推荐系统基础理论

机器学习（二十一） ——高斯密度估计实现异常检测

机器学习（二十） ——PCA实现样本特征降维

机器学习（十五） ——logistic回归实践

机器学习（十四） ——朴素贝叶斯实践

机器学习（十四） ——朴素贝叶斯实现分类器

机器学习（十三） ——交叉验证、查准率与召回率

机器学习（十二） ——神经网络代价函数、反向传播、梯度检验、随机初始化

机器学习（十一） ——神经网络基础

机器学习（十） ——使用决策树进行预测（离散特征值）

机器学习（九） ——构建决策树（离散特征值）

机器学习（八） ——过拟合与正则化

机器学习（七） ——logistic回归

机器学习（六） ——线性回归的多变量、特征缩放、标准方程法

机器学习（五） ——k-近邻算法进一步探究

机器学习（四） ——梯度下降算法解释以及求解θ

机器学习（三） ——k-近邻算法基础

机器学习（二） ——线性回归、代价函数与梯度下降基础

机器学习（一）——机器学习概述

清单首页机器学习篇文章详情

清单「机器学习篇」 17/26

机器学习（十） ——使用决策树进行预测（离散特征值）

用户1327360

机器学习（十）——使用决策树进行预测（离散特征值）

（原创内容，转载请注明来源，谢谢）

一、绘制决策树

决策树的一大优点是直观，但是前提是其以图像形式展示。如果是{'color': {9: 'yes', 2: {'fly': {0: 'no', 1: {'big': {0: 'no', 1:'yes'}}}}, 3: 'no'}}这种类型的决策树，不够直观。

这就是绘制决策树的目的。

绘制决策树，需要用到python的matplotlib类库，其带有丰富的注解、绘图等功能。我希望更加专注于算法本身，而不是类库。因此，这里不贴出绘制的代码。代码本身也不长，80多行，大家可以下载《机器学习实战》的随书代码，如果实在有需要的可以找我，我可以提供我自己写的一个版本。

二、存储与读取决策树

如果每次都需要重新使用样本生成决策树，对于样本数量非常大的情况下，非常耗时且毫无意义。决策树比knn算法的一大优势，就在于其构建完的决策树，后面每个新的样本都可以直接使用来预测，并不需要重新读样本，重新生成。除非样本本身有很大变动，否则保存生成的决策树，更为重要。

1、存储

存储决策树，其过程就是将生成的决策树，序列化后以字符串的形式写入一个文件。具体写入哪里，可以根据项目的实际情况，数据库、redis也都可以用来存储。

python的序列化，引入的pickle类库。同样，不需要太过于专注类库具体内容，只要知道其提供了序列化和反序列化的功能即可。

2、载入

载入的过程，就是从文件（或数据库、redis等）读出存储的决策树的字符串，并且反序列化即可。

三、使用决策树进行分类

这里强调使用，即直接通过输入一个决策树，而不再去生成决策树。使用决策树的过程，就和人眼去比对的过程类似：先比对第一个特征，根据比对结果，走向决策树的不同的子节点；再在子节点处进行比对。直到比对到叶子节点，即得到结果。

用代码和用人眼的区别，就是需要用递归来比对。

四、实战项目

1、需求

运用决策树，预测具有不同特征的人，应该佩戴什么样的隐形眼镜。

这里，把人的特征分为四个：年龄、是否散光、近视程度、泪液程度，需要佩戴的隐形眼镜的分类结果有三种：不能佩戴、佩戴柔软隐形眼镜、佩戴硬的隐形眼镜。

2、实现

1）生成决策树

这里的数据源，已经随书给出如下：

前面四列是人的四个特征值，分布是年龄、近视程度、是否散光、泪液程度，最后一列是分类结果。

生成决策树后，保存在本地，代码如下：

2）绘制决策树

读取生成结果，并且调用绘制的代码进行绘制，代码如下：

3）使用决策树进行预测

读取决策树，并且输入新的一个人的特征值，即可告知该使用何种隐形眼镜。

3）执行代码

绘制决策树

预测结果

五、总结

决策树的难点还是在于生成决策树，使用过程其实很简单。对于绘制决策树部分，我认为是很直观，但是目前学习我暂时不想太深入绘制的过程，因为其涉及很多python的gui操作，目前我想更专注于算法本身，而不是python的语法和类库。

另外，决策树可以进行存储，这一大特性，使得其比knn算法的优势显著，特别是样本数量大的情况。

决策树也存在过拟合的情况，可以通过裁剪决策树来解决问题，对于叶子节点信息量增加不多的就可以进行删除或合并，这个后面会学习到。

同时，ID3算法无法直接处理数值型的特征值，这个后面学习CART算法来构造决策树。可以解决。

——written by linhxx 2018.01.08

机器学习篇

机器学习（十） ——使用决策树进行预测（离散特征值）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐