前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ML_Basic-特征预处理操作指南

ML_Basic-特征预处理操作指南

作者头像
Sam Gor
发布2019-08-22 15:39:44
4940
发布2019-08-22 15:39:44
举报
文章被收录于专栏:SAMshareSAMshare

Index

  • 数据清洗
    • 缺失值处理
    • 异常值处理
  • 数据集成
    • 实体识别
    • 冗余属性识别
  • 数据变换
    • 简单函数变换
    • 规范化
    • 变量分箱
    • 变量开发
    • 独热编码
  • 数据规约
    • 特征规约
    • 数值规约

数据清洗

主要是删除原始数据集中无关的数据、重复的数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理异常值缺失值等操作

1. 缺失值处理

这里需要区分缺失值和空值的区别:

缺失值:缺失值指的是的数据原本是必须存在的,但实际上没有数据。根据数据及业务的理解,这个字段应当没有缺失值,但却有些观测没有数据,这个时候就要检查,看下是不是数据拼接的时候出现问题了。

空值:空值指的是实际存在可能为空的情况,所以空值不一定是数据问题,可能是观测的一种特征表现。

主要分为3类:删除记录、数据插补、不处理

数据插补的办法:

1)均值/中位数/众数插补

2)使用固定值:将缺失的值用一个常数表示

3)最近临插补:在记录中找到与缺失样本最接近的样本来进行插补

4)回归方法:剔除缺失的记录,根据其他样本数据建立拟合模型预测缺失

5)插值法

2. 异常值处理

常用的处理办法包括:

1)删除含有异常值的记录

2)视为缺失值

3)平均值修正

4)不处理

数据集成

数据挖掘的数据来自不同的数据源,数据集成就是将多个数据源合并在一个一致的数据存储中的过程。

1. 实体识别

1)同名异义

数据源A中的属性ID和数据源B中的属性ID 分别描述的是菜品编号和订单编号,即描述不同的实体。

2)异名同义

数据源A中的sale_dt和数据源B中的sales_date都是描述销售日期,但是叫法不同

3)单位不统一

如m和cm、美元和人民币之类等等

2. 冗余属性识别

1)同一属性多次出现

2)同一属性命名不一致导致重复

数据变换

数据变换主要是对数据进行规范化处理,达到适用于挖掘的目的。

1. 简单函数变换

常用的变换包括平方、开方、取对数、差分运算等

2. 规范化

常用的规范化方法包括min-max规范化、0-mean规范化、小数定标规范化、z-score标准化

3. 变量分箱

常用的方法包括等宽法、等频法、聚类法

4. 变量开发

即利用已有的变量,组合构造出新的变量

5. 独热编码

独热编码采用N位状态寄存器来对N个可能的取值进行编码,每个状态都由独立的寄存器来表示,并且在任意时刻只有其中一位有效。

优点:能够处理非数值属性;在一定程度上扩充了特征;编码后的属性是稀疏的,存在大量的零元分量。

数据规约

数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量(完成该任务的必要前提是理解挖掘任务和熟悉数据本身内容)——百度百科

对于大数据集的处理十分耗时,所以大多数时候需要对数据进行规约,提高数据分析挖掘的速度。

1. 特征规约

通过特征(变量)合并来创建新特征维度,或者直接删除不相关的属性,常用的办法包括:

1)合并特征

2)逐步向前选择

3)逐步向后选择

4)决策树归纳

5)主成分分析(PCA)

2. 数值规约

指的是通过选择替代的、较小的数据来减少数据量。

1)直方图分箱近似分布

2)聚类

3)抽样

4)参数回归

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-02-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SAMshare 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Index
  • 数据清洗
    • 1. 缺失值处理
      • 2. 异常值处理
      • 数据集成
        • 1. 实体识别
          • 2. 冗余属性识别
          • 数据变换
            • 1. 简单函数变换
              • 2. 规范化
                • 3. 变量分箱
                  • 4. 变量开发
                    • 5. 独热编码
                    • 数据规约
                      • 1. 特征规约
                        • 2. 数值规约
                        相关产品与服务
                        数据集成
                        数据集成(DataInLong)源于腾讯开源并孵化成功的 ASF 顶级项目 Apache InLong(应龙),依托 InLong 百万亿级别的数据接入和处理能力支持数据采集、汇聚、存储、分拣数据处理全流程,在跨云跨网环境下提供可靠、安全、敏捷的全场景异构数据源集成能力。
                        领券
                        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档