,在分类问题中,表示基于特征对实例进行分类的过程.可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布.
2.决策树学习过程包含三个步骤:特征选择,决策树的生成和决策树模型的修剪...)之差,即$g(D,A)=H(D)-H(D|A)$
4.5 信息增益比:特征A对训练集D的信息增益比$g_R(D,A)$定义为其信息增益$g(D,A)$与训练集D的经验熵H(D)之比为:$g_R(D,A...C4.5算法参考,西瓜书上讲得略微好一点
6.CART算法:最小二乘法生成回归树,基于基尼系数生成回归树
7.剪枝策略:预剪枝和后剪枝 (参考西瓜书上) 将数据集分为训练集和验证集,用验证集来进行剪枝操作...第八章 提升方法
1.概念:对提升方法来说,有两个问题需要回答
在每一轮如何改变训练数据的权值或概率分布 - AdaBoost提高那些前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值
如何将弱分类器组合成一个强分类器...- AdaBoost采取加权多数表决的方法,具体地,加大分类误差率较小的弱分类器的权值,使其表决中起较大的作用,减小分类误差率较大的弱分类器的权值,使其再表决中其较小的作用.
2.AdaBoost
学习样本权重