决策树模型
决策树基于“树”结构进行决策
学习过程: 通过对训练样本的分析来确定“划分属性”(即内部结点所对应的属性)
预测过程: 将测试示例从根结点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶结点
总体流程: “分而治之”(divide-and-conquer)
三种停止条件:
决策树基本流程
[图片上传失败...(image-43a3a6-1530459814769)]
如果数据中有连续值,如何处理?
[图片上传失败...(image-58d933-1530459814769)]
基本思路: 连续属性离散化
常见做法: 二分法 (bi-partition)
[图片上传失败...(image-28aba0-1530459814769)]
现实应用中,经常会遇到属性值“缺失”(missing)现象
只使用没有缺失值的样本/属性?
如果使用带缺失值的样例,需解决几个问题:
基本思路: 样本赋权,权重划分
分辨西瓜的例子
仅通过无缺失值的样例来判 断划分属性的优劣
有缺失值的西瓜数据集
[图片上传失败...(image-93c06c-1530459814769)]
学习开始时,根结点包 含样例集 D 中全部17个样例,权重均为 1
以属性“色泽”为例,该属性上无缺失值的样例子集 包含14个样本,信息熵为
分辨西瓜的例子
[图片上传失败...(image-4303ae-1530459814769)]
[图片上传失败...(image-fec195-1530459814769)]
[图片上传失败...(image-72d0ac-1530459814769)]
从树到规则
[图片上传失败...(image-4e3b3e-1530459814769)]
好处:
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有