大家好!我是MPIG的李琪,今天我给大家带来的是机器学习中一个经典的算法——决策树。
首先我们引入为什么要使用决策树,以生活中常见的一个问题为例。
当我们得到样本数据以后,该如何划分这些数据呢,或者说我们的首要问题应该是,我们要依据哪个特征去划分这些数据呢。
计算香农熵代码如下:
划分数据集函数的代码:
选择用于划分数据集最优的特征:
划分后的数据集组成的决策树:
构造决策树的函数,决策后的数据集和用于划分的特征共同构成了决策树。并且在Python中以字典的形式存储和使用,构造决策树的函数代码如下:
上述基础代码共同构成了决策树算法的实现,我们使用的演示数据集是一个海洋动物划分的数据集,如下:
最后我们可以使用分类函数,来测试我们的决策树是否正确,按照顺序将特征输入到决策树,观察输出结果是否正确。代码如下:
关于决策树,有一个很经典的数据集是隐形眼镜数据集:
将该数据集引入到我们的算法中来,得到的决策树如图所示:
想获取本presentation的对应文稿和代码,可以点击如下链接下载:
领取专属 10元无门槛券
私享最新 技术干货