前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >决策树基本思想

决策树基本思想

作者头像
Steve Wang
发布2023-10-12 09:33:30
1730
发布2023-10-12 09:33:30
举报
文章被收录于专栏:从流域到海域从流域到海域

决策树是基本的机器学习分类算法,它的输入是一组带标签的数据,输出是一颗决策树,树的非叶结点代表判断逻辑,叶子结点代表分类子集。

决策树算法原理是通过训练数据形成if-then的判断结构。从树的根节点到叶节点的每一条路径构成一个判断规则。我们需要选择合适的特征作为判断节点,可以快速的分类,减少决策树的深度。最理想的情况是,通过特征的选择把不同类别的数据集贴上对应类标签,树的叶子节点代表一个集合,集合中数据类别差异越小,其数据纯度越高。

  • 输入:训练集
D=\{(x_1,y_1), (x_2, y_2),...,(x_3,y_3)\}

,属性集

A=\{a_1,a_2,...,a_n\}

过程:抽象为函数TreeGenerate(D,A) 注:最优划分属性即为能把最多结点分为一类的属性

代码语言:javascript
复制
1. 生成根结点node
2. if D中样本全部属于某一类C,then
3.    标记根节点为C类叶子结点;return
4. endif
5. if A = 空集 or D样本在A上取值相同  then
6. 	标记根结点为D中样本数最多的结点;return
7. endif
8. 从A中选取最优划分属性a*
9. for a*的每一个值a*v do
10.	    为node生成一个分支Dv,表示D中在a上取值为a*v的所有的样本的子集
11. 	if Dv为空 then
12.			将分支结点标记为叶子结点,其类别标记为D中样本最多的类;return
13.		else 
14.			以TreeGenerate(Dv,  A\{a*})为分支结点递归
15.	 

输出:以node为根节点一个一颗决策树

决策树的生成是一个递归过程,有三种情形会导致递归返回:

  1. 当前结点的样本完全属于同一类别(无需划分)
  2. 当前划分时的属性集为空集,或者所有样本在所有属性上取值都相同(无法划分)
  3. 当前结点集合为空(不能划分)
参考文献

机器学习 - 周志华 分类算法 – 决策树ID3算法

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2023-03-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档