决策树
决策树是一种基本的分类和回归方法.决策树顾名思义,模型可以表示为树型结构,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布.
[图片上传失败......无论是哪种指标,本质上,都是比较用特征划分前后两种状态之间的差异变化,变化越明显越好,而各种指标是对这种差异变化的量化....[个人观点:特征取值越多,划分到每个子节点的数据越少,一定程度上,纯度越高,混乱程度越低,熵取值越小,进而,信息增益越大.比如说,ID特征,因为ID是唯一的,所有划分到每个ID取值节点上也就一个数据点,...因为信息增益会倾向于选择特征取值多的特征,所以,我们对多取值特征进行惩罚,除以特征f的固有值[或者说特征f的信息熵,f的信息熵越大,相应f的取值情况越多,惩罚力度越大]....调用自己,并增加返回结果到分支结点中
return 分支结点
上面伪代码中存在一个问题, 类标签怎么确定?