机器学习实战(3):决策树

大家好!我是MPIG的李琪,今天我给大家带来的是机器学习中一个经典的算法——决策树。

首先我们引入为什么要使用决策树,以生活中常见的一个问题为例。

当我们得到样本数据以后,该如何划分这些数据呢,或者说我们的首要问题应该是,我们要依据哪个特征去划分这些数据呢。

计算香农熵代码如下:

划分数据集函数的代码:

选择用于划分数据集最优的特征:

划分后的数据集组成的决策树:

构造决策树的函数,决策后的数据集和用于划分的特征共同构成了决策树。并且在Python中以字典的形式存储和使用,构造决策树的函数代码如下:

上述基础代码共同构成了决策树算法的实现,我们使用的演示数据集是一个海洋动物划分的数据集,如下:

最后我们可以使用分类函数,来测试我们的决策树是否正确,按照顺序将特征输入到决策树,观察输出结果是否正确。代码如下:

关于决策树,有一个很经典的数据集是隐形眼镜数据集:

将该数据集引入到我们的算法中来,得到的决策树如图所示:

想获取本presentation的对应文稿和代码,可以点击如下链接下载:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180517G12EBL00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券