商务智能系列文章目录
【商务智能】数据预处理
----
文章目录
商务智能系列文章目录
前言
一、数据预处理主要任务
二、数据规范方法
1、z-score 规范化
2、最小-最大规范化
三、数据离散方法...,
\mu
是均值 ,
\sigma
是标准差 , 该公式的含义是 计算当前属性值
x
偏离均值
\mu
的距离是多少个标准差
\sigma
;
z-score 规范化 又称为 零均值规范化...80
这一档很多 ,
01
~
10
这一档几乎没有 ;
等频率分箱 : 又称为 等深度分箱 , 将每个取值映射到一个区间 , 每个区间包含的取值个数相同 ;
2、基于熵的离散化
分箱离散化 是...无监督 离散化方法 , 基于熵的离散化 是 有监督 离散化方法 ;
给定数据集
D
及其分类属性 , 类别集合为
C = \{ c_1 , c_2 , \cdots , c_k \}
, 数据集...D
的信息熵
\rm entropy(D)
计算公式如下 :
\rm entropy(D) = - \sum_{i=1}^k p(c_i) log_2p(c_i)
p(c_i)
的值是
\