前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DataWhale 吃瓜日记 第四章

DataWhale 吃瓜日记 第四章

原创
作者头像
TomoriNao
修改2023-12-25 07:59:12
740
修改2023-12-25 07:59:12
举报
文章被收录于专栏:每月技术成长每月技术成长

基本概念

  • 决策树结构 决策树包含一个根节点、若干內部节点和叶节点;叶节点对应决策结果;其他非叶节点对应一个属性测试
  • 决策树基本算法
决策树基本算法
决策树基本算法
  • 纯度(purity) 用于衡量决策树分支节点所包含的样本是否属于同一类别,节点的纯度越高越好
  • 信息熵(information entropy) 度量样本集合纯度最常用的指标
信息熵 公式
信息熵 公式

Ent(D)的值越小,则D的纯度越高

  • 预剪枝(prepruning) 在决策树生成过程中,对每个节点在划分前进行估计,若当前节点无法带来决策树泛化性能提升,则停止划分并将当前节点标记为叶节点
  • 后剪枝(post-pruning) 先从训练集生成完整决策树,然后自底向上进行剪枝,若非叶节点的子树替换为叶节点能带来泛化性能提升则将该子树替换为叶节点重要结论
  • 可以通过信息增益或增益率来作为判断依据划分属性,生成决策树
  • 可以通过基尼值来度量数据集的纯度,基尼值越小,数据集的纯度越高
  • 预剪枝和后剪枝是进行决策树优化的两种手段,预剪枝有欠拟合的风险,而后剪枝需要消耗更多的资源
  • 可以通过二分法等手段,实现使用连续属性建立决策树
  • 可以通过引入权重来使用有缺失值的样本进行学习
  • 多变量决策树的学习过程中,不是为非叶节点寻找最优划分属性,而是试图建立合适的线性分类器
多变量决策树 分类边界
多变量决策树 分类边界

总结

决策树是通过不断地对属性进行划分,最终形成的树状结构,叶节点为决策结果。决策树训练过程中需要寻找最优划分属性,可以通过信息增益、增益率等指标进行划分。而预剪枝是在决策树生成过程中进行的优化,可能导致欠拟合,后剪枝需要得到一颗完整决策树后再进行处理,消耗的资源更多。连续值及缺失值也可以用于决策树生成。多变量决策树的生成需要线性分类器的辅助

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 基本概念
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档