为了更好的掌握这个三个算法,我们需要:知其名、知其提出人,明核心算法,对比长短优劣。所以回答短小简练,不赘述案例,因为网上案例很多,大家自己可以自行查找学习,也欢迎更多人补充。
1,三种算法开创的时间、人物及命名。
算法 | 英文 | 中文名称 | 时间/提出人 |
---|---|---|---|
ID3 | Iterative Dichotomiser 3 | 迭代二分法3 | 1975/J.Ross Quinlan |
C4.5 | Classifier 4.5 | 分类器 4.5 | 1993/J.Ross Quinlan |
CART | Classification and Regression Tree | 分类回归树 | 1984/Breiman |
2,三种算法的核心及公式
ID3核心的算法是信息增益,信息增益=经验熵-经验条件熵。
C4.5的核心算的是 信息增益比率。
CART核心算法通过基尼系数代替信息增益算法。
3,所长必有所短
算法 | 处理数据英型 | 树的结构 | 特点 | 预测类型 |
---|---|---|---|---|
ID3 | 分类变量 | 多叉树 | 偏向多值属性 | 分类 |
C4.5 | 分类变量和连续变量 | 多叉树 | 偏向少值属性 | 分类 |
CART | 分类变量和连续变量 | 二叉树 | 预测值取节点平均值 | 分类及回归 |
注释:回归是给出预测的概率值(0,1),分类给出的预测是否结论值 0或1。