连续值和缺省值的处理

1. 连续值和缺省值的处理


决策树模型

决策树基于“树”结构进行决策

  • 每个“内部结点”对应于某个属性上的“测试”
  • 每个分支对应于该测试的一种可能结果(即该属 性的某个取值)
  • 每个“叶结点”对应于一个“预测结果”

学习过程: 通过对训练样本的分析来确定“划分属性”(即内部结点所对应的属性)

预测过程: 将测试示例从根结点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶结点

总体流程: “分而治之”(divide-and-conquer)

  • 自根至叶的递归过程
  • 在每个中间结点寻找一个“划分”(split or test)属性

三种停止条件:

  1. 当前结点包含的样本全属于同一类别,无需划分;
  2. 当前属性集为空, 或是所有样本在所有属性上取值相同,无法划分;
  3. 当前结点包含的样本集合为空,不能划分.

决策树基本流程

[图片上传失败...(image-43a3a6-1530459814769)]

1.1 连续值处理

如果数据中有连续值,如何处理?

[图片上传失败...(image-58d933-1530459814769)]

基本思路: 连续属性离散化

常见做法: 二分法 (bi-partition)

  • n个属性值可形成(n-1)个候选划分
  • 把候选划分值当做离散属性处理,寻找最佳划分

[图片上传失败...(image-28aba0-1530459814769)]

1.2 缺省值处理

现实应用中,经常会遇到属性值“缺失”(missing)现象

只使用没有缺失值的样本/属性?

  • 会造成数据的极大浪费

如果使用带缺失值的样例,需解决几个问题:

基本思路: 样本赋权,权重划分

分辨西瓜的例子

仅通过无缺失值的样例来判 断划分属性的优劣

有缺失值的西瓜数据集

[图片上传失败...(image-93c06c-1530459814769)]

学习开始时,根结点包 含样例集 D 中全部17个样例,权重均为 1

以属性“色泽”为例,该属性上无缺失值的样例子集 包含14个样本,信息熵为

分辨西瓜的例子

[图片上传失败...(image-4303ae-1530459814769)]

[图片上传失败...(image-fec195-1530459814769)]

[图片上传失败...(image-72d0ac-1530459814769)]

从树到规则

  • 一棵决策树对应于一个“规则集”
  • 每个从根结点到叶结点的分支路径对应于一条规则

[图片上传失败...(image-4e3b3e-1530459814769)]

好处:

  • 改善可理解性
  • 进一步提升泛化能力

要点总结


  • 连续值处理
    • 二分思路
      • n 个属性值可形成 n-1 个候选划分,当做离散值来处理
  • 缺失值处理
    • 样本赋权,权重划分

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

资源 | 十倍模型计算时间仅增20%:OpenAI开源梯度替换插件

3189
来自专栏Jack-Cui

Caffe学习笔记(三):cifar10_quick_train_test.prototxt配置文件分析

运行平台: Ubuntu14.04     在上篇笔记中,已经记录了如何进行图片数据格式的转换和生成txt列表清单文件。本篇笔记主要记录如何计算图片数据的均值和...

2918
来自专栏人工智能

使用Keras在训练深度学习模型时监控性能指标

Keras库提供了一套供深度学习模型训练时的用于监控和汇总的标准性能指标并且开放了接口给开发者使用。

1.7K10
来自专栏企鹅号快讯

深入机器学习系列7-Random Forest

1 Bagging   采用自助采样法()采样数据。给定包含个样本的数据集,我们先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时,样本仍...

4666
来自专栏PaddlePaddle

【文本分类】基于双层序列的文本分类模型

导语 PaddlePaddle提供了丰富的运算单元,帮助大家以模块化的方式构建起千变万化的深度学习模型来解决不同的应用问题。这里,我们针对常见的机器学习任务,提...

2863
来自专栏数据派THU

从零开始用Python构造决策树(附公式、代码)

? 来源:Python中文社区 作者:weapon 本文长度为700字,建议阅读5分钟 本文介绍如何不利用第三方库,仅用python自带的标准库来构造一个决策...

2958
来自专栏大数据挖掘DT机器学习

如何用TensorFlow和TF-Slim实现图像标注、分类与分割

本文github源码地址: 在公众号 datadw 里 回复 图像 即可获取。 笔者将和大家分享一个结合了TensorFlow和slim库的小应用,来实现...

5534
来自专栏深度学习思考者

目标检测:选择性搜索策略(C++ / Python)

导读:通过本教程,我们将彻底理解一个重要的概念:目标检测中的常用方法“Selective Search”。文末也会给出使用C++或者Python的Opencv代...

5737
来自专栏人工智能LeadAI

什么!卷积要旋转180度?!

一看这个标题就会想,这有什么大惊小怪的,可能好多人觉得这是个脑残话题,但我确实误解了两三年……

1111
来自专栏Spark学习技巧

译:Tensorflow实现的CNN文本分类

1575

扫码关注云+社区