深入机器学习系列之：Decision Tree

数据猿

发布于 2018-12-27 10:50:06

6060

文章被收录于专栏：数据猿数据猿

导读

决策树，顾名思义，是一种树，一种依托于策略抉择而建立起来的树。机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。

来源：星环科技丨作者：智子AI

数据猿官网 | www.datayuan.cn

今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看点丨百度百家丨博客中国丨趣头条丨腾讯云·云+社区

Decision Tree：决策树

决策树理论

什么是决策树

决策树，顾名思义，是一种树，一种依托于策略抉择而建立起来的树。机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，从根节点到叶节点所经历的路径对应一个判定测试序列。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。

决策树学习流程

决策树学习的主要目的是为了产生一棵泛化能力强的决策树。其基本流程遵循简单而直接的“分而治之”的策略。它的流程实现如下所示：

输入：训练集 D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)}; 属性集 A={a_1,a_2,...,a_d} 过程：函数GenerateTree(D,A) 1: 生成节点node； 2: if D中样本全属于同一类别C then 3: 将node标记为C类叶节点，并返回 4: end if 5: if A为空 OR D中样本在A上取值相同 then 6: 将node标记为叶节点，其类别标记为D中样本数量最多的类，并返回 7: end if 8: 从A中选择最优划分属性 a*； //每个属性包含若干取值，这里假设有v个取值 9: for a* 的每个值a*_v do 10: 为node生成一个分支，令D_v表示D中在a*上取值为a*_v的样本子集； 11: if D_v 为空 then 12: 将分支节点标记为叶节点，其类别标记为D中样本最多的类，并返回 13: else 14: 以GenerateTree(D_v,A\{a*})为分支节点 15: end if 16: end for

决策树的生成是一个递归的过程。有三种情况会导致递归的返回：

（1）当前节点包含的样本全属于同一个类别。（2）当前属性值为空，或者所有样本在所有属性上取相同的值。

（3）当前节点包含的样本集合为空。

在第（2）中情形下，我们把当前节点标记为叶节点，并将其类别设定为该节点所含样本最多的类别；在第（3）中情形下，同样把当前节点标记为叶节点，但是将其类别设定为其父节点所含样本最多的类别。这两种处理实质不同，前者利用当前节点的后验分布，后者则把父节点的样本分布作为当前节点的先验分布。

决策树的构造

构造决策树的关键步骤是分裂属性（即确定属性的不同取值，对应上面流程中的a_v）。所谓分裂属性就是在某个节点处按照某一属性的不同划分构造不同的分支，其目标是让各个分裂子集尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。分裂属性分为三种不同的情况：

1、属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。

2、属性是离散值且要求生成二叉决策树。此时使用属性划分的一个子集进行测试，按照“属于此子集”和“不属于此子集”分成两个分支。

3、属性是连续值。此时确定一个值作为分裂点split_point，按照>split_point和<=split_point生成两个分支。

划分选择

在决策树算法中，如何选择最优划分属性是最关键的一步。一般而言，随着划分过程的不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即节点的“纯度(purity)”越来越高。有几种度量样本集合纯度的指标。在MLlib中，信息熵和基尼指数用于决策树分类，方差用于决策树回归。

1：信息熵