机器学习(十) ——使用决策树进行预测(离散特征值)

机器学习(十)——使用决策树进行预测(离散特征值)

(原创内容,转载请注明来源,谢谢)

一、绘制决策树

决策树的一大优点是直观,但是前提是其以图像形式展示。如果是{'color': {9: 'yes', 2: {'fly': {0: 'no', 1: {'big': {0: 'no', 1:'yes'}}}}, 3: 'no'}}这种类型的决策树,不够直观。

这就是绘制决策树的目的。

绘制决策树,需要用到python的matplotlib类库,其带有丰富的注解、绘图等功能。我希望更加专注于算法本身,而不是类库。因此,这里不贴出绘制的代码。代码本身也不长,80多行,大家可以下载《机器学习实战》的随书代码,如果实在有需要的可以找我,我可以提供我自己写的一个版本。

二、存储与读取决策树

如果每次都需要重新使用样本生成决策树,对于样本数量非常大的情况下,非常耗时且毫无意义。决策树比knn算法的一大优势,就在于其构建完的决策树,后面每个新的样本都可以直接使用来预测,并不需要重新读样本,重新生成。除非样本本身有很大变动,否则保存生成的决策树,更为重要。

1、存储

存储决策树,其过程就是将生成的决策树,序列化后以字符串的形式写入一个文件。具体写入哪里,可以根据项目的实际情况,数据库、redis也都可以用来存储。

python的序列化,引入的pickle类库。同样,不需要太过于专注类库具体内容,只要知道其提供了序列化和反序列化的功能即可。

2、载入

载入的过程,就是从文件(或数据库、redis等)读出存储的决策树的字符串,并且反序列化即可。

三、使用决策树进行分类

这里强调使用,即直接通过输入一个决策树,而不再去生成决策树。使用决策树的过程,就和人眼去比对的过程类似:先比对第一个特征,根据比对结果,走向决策树的不同的子节点;再在子节点处进行比对。直到比对到叶子节点,即得到结果。

用代码和用人眼的区别,就是需要用递归来比对。

四、实战项目

1、需求

运用决策树,预测具有不同特征的人,应该佩戴什么样的隐形眼镜。

这里,把人的特征分为四个:年龄、是否散光、近视程度、泪液程度,需要佩戴的隐形眼镜的分类结果有三种:不能佩戴、佩戴柔软隐形眼镜、佩戴硬的隐形眼镜。

2、实现

1)生成决策树

这里的数据源,已经随书给出如下:

前面四列是人的四个特征值,分布是年龄、近视程度、是否散光、泪液程度,最后一列是分类结果。

生成决策树后,保存在本地,代码如下:

2)绘制决策树

读取生成结果,并且调用绘制的代码进行绘制,代码如下:

3)使用决策树进行预测

读取决策树,并且输入新的一个人的特征值,即可告知该使用何种隐形眼镜。

3)执行代码

绘制决策树

预测结果

五、总结

决策树的难点还是在于生成决策树,使用过程其实很简单。对于绘制决策树部分,我认为是很直观,但是目前学习我暂时不想太深入绘制的过程,因为其涉及很多python的gui操作,目前我想更专注于算法本身,而不是python的语法和类库。

另外,决策树可以进行存储,这一大特性,使得其比knn算法的优势显著,特别是样本数量大的情况。

决策树也存在过拟合的情况,可以通过裁剪决策树来解决问题,对于叶子节点信息量增加不多的就可以进行删除或合并,这个后面会学习到。

同时,ID3算法无法直接处理数值型的特征值,这个后面学习CART算法来构造决策树。可以解决。

——written by linhxx 2018.01.08

原文发布于微信公众号 - 决胜机器学习(phpthinker)

原文发表时间:2018-01-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【前沿】TensorFlow Pytorch Keras代码实现深度学习大神Hinton NIPS2017 Capsule论文

【导读】10月26日,深度学习元老Hinton的NIPS2017 Capsule论文《Dynamic Routing Between Capsules》终于在a...

43560
来自专栏FreeBuf

AI安全初探:利用深度学习检测DNS隐蔽通道

DNS 隐蔽通道简介 DNS 通道是隐蔽通道的一种,通过将其他协议封装在DNS协议中进行数据传输。 由于大部分防火墙和入侵检测设备很少会过滤DNS流量,这就给D...

36350
来自专栏机器之心

资源 | 如何通过CRF-RNN模型实现图像语义分割任务

选自GitHub 作者:Shuai Zheng等 机器之心编译 参与:蒋思源 本 Github 项目通过结合 CNN 和 CRF-RNN 模型实现图像的语义分割...

703150
来自专栏QQ音乐前端团队专栏

前端图片主题色提取

对于需要根据用户“定制”、“生成”的图片,这样的方式就有了一个上传图片---->后端计算---->返回结果的时间,等待时间也许就比较长了。由此,我尝试着利用 c...

1.8K150
来自专栏机器之心

教程 | 如何利用TensorFlow.js部署简单的AI版「你画我猜」图像识别应用

我们将使用卷积神经网络(CNN)来识别不同类型的手绘图像。这个卷积神经网络将在 Quick Draw 数据集(https://github.com/google...

38340
来自专栏AI科技大本营的专栏

OpenCV特征提取与图像检索实现(附代码)

翻译 | AI科技大本营 参与 | 张蔚敏 审校 | reason_W “拍立淘”“一键识花”“街景匹配”……不知道大家在使用这些神奇的功能的时候,有没有好奇过...

78560
来自专栏ATYUN订阅号

深度学习图像识别项目(中):Keras和卷积神经网络(CNN)

在下篇文章中,我还会演示如何将训练好的Keras模型,通过几行代码将其部署到智能手机上。

3.1K60
来自专栏大数据挖掘DT机器学习

阿里天池大数据竞赛实战:RF&GBRT 完成过程

一点比赛心得,供不太熟悉Xlab RF和GBRT调用的同学参考,不喜勿喷,大神绕道---------- 6月初的时候LR 做到4.9后一直上不去,...

411110
来自专栏云时之间

对于问题的简单定义

学习此部分的目的:发现在没有单独的行动可以解决问题的时候,机器如何找到一个行动序列达到他的目标;在这部分中,通过讨论一些无信息的通用搜索算法,来比较各部分算法的...

30350
来自专栏新智元

【前沿】TensorFlow Pytorch Keras代码实现深度学习大神Hinton NIPS2017 Capsule论文

【新智元导读】10月26日,深度学习元老Hinton的NIPS2017 Capsule论文《Dynamic Routing Between Capsules》终...

44070

扫码关注云+社区

领取腾讯云代金券