Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >连续值和缺省值的处理

连续值和缺省值的处理

作者头像
iOSDevLog
发布于 2018-07-03 09:20:02
发布于 2018-07-03 09:20:02
1.5K0
举报
文章被收录于专栏:iOSDevLogiOSDevLog

1. 连续值和缺省值的处理


决策树模型

决策树基于“树”结构进行决策

  • 每个“内部结点”对应于某个属性上的“测试”
  • 每个分支对应于该测试的一种可能结果(即该属 性的某个取值)
  • 每个“叶结点”对应于一个“预测结果”

学习过程: 通过对训练样本的分析来确定“划分属性”(即内部结点所对应的属性)

预测过程: 将测试示例从根结点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶结点

总体流程: “分而治之”(divide-and-conquer)

  • 自根至叶的递归过程
  • 在每个中间结点寻找一个“划分”(split or test)属性

三种停止条件:

  1. 当前结点包含的样本全属于同一类别,无需划分;
  2. 当前属性集为空, 或是所有样本在所有属性上取值相同,无法划分;
  3. 当前结点包含的样本集合为空,不能划分.

决策树基本流程

[图片上传失败...(image-43a3a6-1530459814769)]

1.1 连续值处理

如果数据中有连续值,如何处理?

[图片上传失败...(image-58d933-1530459814769)]

基本思路: 连续属性离散化

常见做法: 二分法 (bi-partition)

  • n个属性值可形成(n-1)个候选划分
  • 把候选划分值当做离散属性处理,寻找最佳划分

[图片上传失败...(image-28aba0-1530459814769)]

1.2 缺省值处理

现实应用中,经常会遇到属性值“缺失”(missing)现象

只使用没有缺失值的样本/属性?

  • 会造成数据的极大浪费

如果使用带缺失值的样例,需解决几个问题:

基本思路: 样本赋权,权重划分

分辨西瓜的例子

仅通过无缺失值的样例来判 断划分属性的优劣

有缺失值的西瓜数据集

[图片上传失败...(image-93c06c-1530459814769)]

学习开始时,根结点包 含样例集 D 中全部17个样例,权重均为 1

以属性“色泽”为例,该属性上无缺失值的样例子集 包含14个样本,信息熵为

分辨西瓜的例子

[图片上传失败...(image-4303ae-1530459814769)]

[图片上传失败...(image-fec195-1530459814769)]

[图片上传失败...(image-72d0ac-1530459814769)]

从树到规则

  • 一棵决策树对应于一个“规则集”
  • 每个从根结点到叶结点的分支路径对应于一条规则

[图片上传失败...(image-4e3b3e-1530459814769)]

好处:

  • 改善可理解性
  • 进一步提升泛化能力

要点总结


  • 连续值处理
    • 二分思路
      • n 个属性值可形成 n-1 个候选划分,当做离散值来处理
  • 缺失值处理
    • 样本赋权,权重划分
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.07.01 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ID3、C4.5、CART三种决策树的区别
很早就想写写决策树,说起决策树做过数据挖掘的就不会感觉陌生,但是可能对ID3决策树算法、C4.5决策树算法以及CART决策树之间的区别不太了解,下面就这三个比较著名的决策树算法分别写写
张凝可
2019/08/22
1.1K0
机器学习day9-决策树
决策树自上而下,对样本数据进行树形分类的过程。决策树由结点和有向边组成。结点又分内部结点和叶结点。每个内部结点表示一个特征或属性,叶子结点表示类别。 从顶部开始,所有样本聚在一起,经过根结点的划分,样本分入不同的子结点,再根据子结点的特征进一步划分,直到所有的样本被归入到一个类别。 决策树是最基础且常见的监督学习模型,可以用于处理分类问题和回归问题。 决策树的生成包括:特征选择,树的构造,树的剪枝三个过程。
福贵
2020/06/11
4050
6万字解决算法面试中的深度学习基础问题
真的是千呼万唤始出来emmmm,去年春招结束写了篇面试的经验分享。在文中提到和小伙伴整理了算法岗面试时遇到的常见知识点及回答,本想着授人以渔,但没想到大家都看上了我家的 !但因本人执行力不足,被大家催到现在才终于想着行动起来分享给大家,笔者在这里给各位读者一个大大的抱歉,求原谅呜呜~~相信今年参加秋招的小伙伴们一定都拿到理想的offer啦,明年准备找工作的小盆友如果觉得本文还有些用可以收藏哈。
对白
2022/04/01
5910
6万字解决算法面试中的深度学习基础问题
《机器学习》-- 第四章 决策树
正文共:8270 字 151 图 预计阅读时间:21 分钟 前文推送 MIT线性代数相关资源汇总 《机器学习》--第一章 《机器学习》--第二章 《机器学习》--第三章(上) 《机器学习》--第三章(下) 本文目录: 4.1 决策树基本流程 4.2 划分选择 4.3 剪枝处理 4.4 连续值与缺失值处理 4.5 决策树算法对比 第四章 决策树 4.1 决策树基本流程 决策树(decision tree,亦称为判定树)是一类常见的机器学习方法。 以二分类任务为例,我们希望从给定训练数据集学得一个模型用以对新
fireWang
2019/11/12
1.5K0
《机器学习》-- 第四章 决策树
图解机器学习 | 决策树模型详解
教程地址:http://www.showmeai.tech/tutorials/34
ShowMeAI
2022/03/10
3.7K0
图解机器学习 | 决策树模型详解
全面总结机器学习项目和面试中几乎绕不开的决策树
决策树是一种常见的机器学习算法,它的思想十分朴素,类似于我们平时利用选择做决策的过程。
double
2018/07/31
4050
ID3、C4.5、CART三种决策树的区别
一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应一个属性测试;每个结点包含的样本结合根据属性测试的结果被划分到子结点中;根结点包含样本全集,从根结点到每个叶结点的每个叶结点的路径对应一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强,也就是能够处理未见实例的决策树。
统计学家
2019/04/08
7440
ID3、C4.5、CART三种决策树的区别
西瓜书4-决策树
从西瓜书和统计学习方法中学习了决策树的相关知识,同时在网上查找了树的知识点,最重要的是二叉树和树3种的遍历方式
皮大大
2021/03/02
1.1K0
分类规则挖掘(二)
  决策树 (Decision Tree) 是从一组无次序、无规则,但有类别标号的样本集中推导出的、树形表示的分类规则。树的叶子结点表示类别标号,即分类属性的取值,对应一个数据对象的子集;树的内部结点为条件属性,它是一个数据对象子集合的标识符;一个内部结点为每个条件属性值或组合的条件属性值构成一个树枝,连接到树的下一层结点 (也是数据对象子集);从树根到叶子结点的一条路径称为一条决策规则,它可以对未知数据进行分类或预测。
Francek Chen
2025/01/22
710
分类规则挖掘(二)
机器学习--决策树算法
在生活中,“树”这一模型有很广泛的应用,事实证明,它在机器学习分类和回归领域也有着深刻而广泛的影响。在决策分析中,决策树可以明确直观的展现出决策结果和决策过程。如名所示,它使用树状决策模型。它不仅仅是在数据挖掘中用户获取特定目标解的策略,同时也被广泛的应用于机器学习。
Kindear
2021/10/26
6370
决策树算法:ID3,C4.5,CART
对于基本树我将大致从以下四个方面介绍每一个算法:思想、划分标准、剪枝策略,优缺点。
zhangjiqun
2024/12/14
1870
决策树算法:ID3,C4.5,CART
决策树学习笔记
计算得到每个属性的基尼系数后,在候选属性集合A中,选择使划分后基尼指数最小的属性作为最优划分属性。
UM_CC
2022/09/22
2900
决策树学习笔记
「Workshop」第二十六期 随机森林
决策树是基于树结构来进行决策的,这是一种人在决策时自然的处理机制,即进行决策时,会进行一系列的“子决策”,每个决策过程中进行的判断,都是在上次决策结果的限定范围内,每个决策都只考虑在当前的判断,经过这些子决策,得到最终决策。
王诗翔呀
2020/12/01
1K0
「Workshop」第二十六期 随机森林
《机器学习》笔记-决策树(4)
作者:刘才权 编辑:黄俊嘉 写在最前面 如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中。不管是出于好奇,还是自身充电,跟上潮流,我觉得都值得试一试。对于自己,经历了一段时间的系统学习(参考《机器学习/深度学习入门资料汇总》),现在计划重新阅读《机器学习》[周志华]和《深度学习》[Goodfellow et al]这两本书,并在阅读的过程中进行记录和总结。这两本是机器学习和深度学习的入门经典。笔记中除了会对书中核心及重点内容进行记录,同时,也会增加自己的
机器学习算法工程师
2018/03/06
7460
《机器学习》笔记-决策树(4)
决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结
决策树是一个有监督分类模型,本质是选择一个最大信息增益的特征值进行输的分割,直到达到结束条件或叶子节点纯度达到阈值。下图是决策树的一个示例图:
统计学家
2019/09/03
1.7K0
决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结
决策树算法之----C4.5
1. C4.5算法简介 C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。 C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一种类似流程图的树结构,其中每个内部节点(非树叶节点)表示在一个属性上的测试,每个分枝代
智能算法
2018/04/03
1.5K0
决策树算法之----C4.5
常用机器学习算法汇总比较(上)
前面六篇文章从一个项目的终极目标、寻找和获取数据,到数据预处理,做特征工程,接下来就需要开始选择合适的算法模型,进行训练评估和测试了。
kbsc13
2019/08/16
7640
决策树算法原理及应用(详细版)
C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。
智能算法
2020/09/24
2.5K0
决策树算法原理及应用(详细版)
机器学习 | 决策树模型(一)理论
决策树(Decision tree)是一种基本的分类与回归方法,是一种非参数的有监督学习方法。
数据STUDIO
2021/06/24
1.5K0
机器学习 学习笔记(8) 决策树
一般的,一棵决策树包含一个根结点、若干内部结点和若干个叶结点,叶子结点对应于决策结果,而其他每个结点对应于一个属性测试,每个结点被包含的样本集合根据属性测试的结果被划分到子结点中,根结点包含样本全集。
2018/09/03
8490
机器学习 学习笔记(8) 决策树
相关推荐
ID3、C4.5、CART三种决策树的区别
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文