前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【商务智能】数据预处理

【商务智能】数据预处理

作者头像
韩曙亮
发布2023-03-29 13:29:02
3.7K0
发布2023-03-29 13:29:02
举报
文章被收录于专栏:韩曙亮的移动开发专栏

商务智能系列文章目录

【商务智能】数据预处理


文章目录


前言

在进行数据分析之前 , 先要对数据进行预处理操作 , 本篇博客简要介绍常用的数据预处理方法 ;

一、数据预处理主要任务

数据预处理主要任务 :

① 数据离散化 : 分箱离散化 , 基于熵的离散化 , ChiMerge 离散化 ;

② 数据规范化 : 又称数据标准化 , 统一 样本数据的 取值范围 , 避免在数据分析过程中 , 因为属性取值范围不同 , 在数据分析过程中导致分析结果出现误差 ; 如 : 时间属性的数值 , 有用秒作为单位的 , 有用小时作为单位的 , 必须统一成同一个时间单位 ;

③ 数据清洗 : 识别 和 处理 数据缺失 , 噪音数据 , 数据不一致 等情况 ; 如 : 某样本某属性数据缺失 , 将 同类样本的该属性的平均值 赋值给该缺失属性的样本 ;

④ 特征提取与特征选择 : 面向分类的特征选择方法 , 有效的特征选择 , 既可以 降低数据量 , 又能 提高分类模型的构建效率 , 还能 提高分类准确率 ;

二、数据规范方法

1、z-score 规范化

z-score : 也称为 标准分 ; z-score 值为

z = \cfrac{x - \mu}{\sigma}

;

其中

x

是本次要规范的属性值 ,

\mu

是均值 ,

\sigma

是标准差 , 该公式的含义是 计算当前属性值

x

偏离均值

\mu

的距离是多少个标准差

\sigma

;

z-score 规范化 又称为 零均值规范化 ( Zero-Mean Normalization ) , 给定属性

A

, 均值为

\mu

, 标准差为

\sigma

, 属性

A

的取值

x

规范后的值

z = \cfrac{x - \mu}{\sigma}

;

年收入平均值

82

万 , 标准差

39

, 年收入

60

万使用 z-score 规范化后的值为 :

z = \cfrac{60 - 82}{39} =0.564

2、最小-最大规范化

样本属性原来取值范围

[l , r]

, 现在需要将样本属性映射到

[L, R]

区间内 , 根据等比例映射原理 , 属性值

x

映射到新区间后的值计算方法如下 :

v = \cfrac{x - l}{r-l}(R-L) + L

某样本属性为年收入 , 取值范围

[10, 100]

, 将其映射到

[0, 1]

区间内 , 则

20

映射到新区间后的值为 :

v = \cfrac{20 - 10}{100-10}(1-0) + 0 =0.1111

三、数据离散方法

1、分箱离散化

分箱离散化 分为 等距离分箱 , 等频率分箱 ;

等距离分箱 : 又称为 等宽度分箱 , 将属性的每个取值映射到等大小区间的方法 ;

如 : 学生考试分数 ,

0

~

100

分 , 以

10

分为一档 , 分为

10

档 ,

15

分处于

11

~

20

档 ,

52

分处于

51

~

60

档 ;

等距离分箱 , 可能导致某些取值多 , 某些取值少 , 如

71

~

80

这一档很多 ,

01

~

10

这一档几乎没有 ;

等频率分箱 : 又称为 等深度分箱 , 将每个取值映射到一个区间 , 每个区间包含的取值个数相同 ;

2、基于熵的离散化

分箱离散化 是 无监督 离散化方法 , 基于熵的离散化 是 有监督 离散化方法 ;

给定数据集

D

及其分类属性 , 类别集合为

C = \{ c_1 , c_2 , \cdots , c_k \}

, 数据集

D

的信息熵

\rm entropy(D)

计算公式如下 :

\rm entropy(D) = - \sum_{i=1}^k p(c_i) log_2p(c_i)
p(c_i)

的值是

\rm \cfrac{count(c_i)}{|D|}

,

\rm count(c_i)

是指

c_i

在数据集

D

中出现的次数 ,

|D|

表示数据样本个数 ;

信息熵

\rm entropy(D)

取值越小 , 类别分步越纯 ;

属性 信息熵 计算参考 【数据挖掘】决策树中根据 信息增益 确定划分属性 ( 信息与熵 | 总熵计算公式 | 每个属性的熵计算公式 | 信息增益计算公式 | 划分属性确定 ) 博客 ;


总结

本博客主要讲解数据预处理需要进行的操作 , 数据规范化 , 数据离散化 , 数据清洗 , 特征提取与特征选择 ;

数据规范化涉及 最小-最大规范化 和 z-score 规范化 ;

数据离散化涉及 分箱离散化 和 基于熵的离散化 , 分箱离散化分为 等距离分箱 和 等频率分箱 ;

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021-06-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 商务智能系列文章目录
    • 文章目录
    • 前言
    • 一、数据预处理主要任务
    • 二、数据规范方法
      • 1、z-score 规范化
        • 2、最小-最大规范化
        • 三、数据离散方法
          • 1、分箱离散化
            • 2、基于熵的离散化
            • 总结
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档