数据变换

常见的数据预处理包括: 数据缺失(Missing), 奇值处理(Outlier), 数据变换(Transformation), 特征选择(Feature Selection), 特征提取(Feature Extraction), 非平衡数据预处理(Imbalance)。 这里主要关注数据变换。

常见的数据类型包括:

这里的数据变换里面主要是针对连续数据的变换。

一, 为什么要数据变换

  1. 方便置信区间分析或者可视化 (缩放数据, 对称分布)
  2. 为了获取更容易解释的特征 (获取线性特征)。
  3. 降低数据的维度或者复杂度
  4. 方便使用简单的回归模型

举个简单又很常见的例子, 如果我们发现在变换前, 数据在尾部比较集中, 如果变成近似正态分布的样子?

再或者, 数据在首部异常集中, 又怎么转换到正态分布的样子呢?

假如这两个问题你不太清楚, 那么你继续往下读,会很有收获的。 在介绍一般经验之前, 我们先介绍一般流程。

二, 数据变换的一般流程

数据变换没有严格的流程, 一般来说是一个Try-and-Fail的过程。 在这个试探过程中, 一般会有。

  1. 初步数据可视化和数据均值方差分析结果
  2. 选择数据变换方法
  3. 变换后数据可视化和数据均值方差分析
  4. 假设验证
  5. 确认数据变换是否有效

三, 常用方法

数据变换一般分为单变量变换和多变量变换。 一般来说多变量变换就成为了特征抽取(Feature Extraction),维度压缩(Dimension Reduction), 数据分解(Decomposition)等, 譬如主成分分析(PCA)。这里主要还是单变量的变换。

单变量的变换又分为线性变换和非线性变换, 这里主要是利用一些非线性变换, 来获取合适数据分布的常见方法。 常见的变换方法有如下几种:

我们把这些变换函数对应到同一张图上, 发现他们具有一定的关于y=x对称的性质。

四, 一般经验

1. 变换前,数据接近正态分布, 直接标准化

2. 变换前数据分布,偏中前, 使用square-root变换

2. 变换前数据分布,偏前, 使用logarithmic变换

2. 变换前数据分布,集中前面, 使用inverse/reciprocal变换

2. 变换前数据分布,偏中后, 使用square变换

2. 变换前数据分布,偏后, 使用exponential变换

根据这些经验, 现在我们可以对前面的问题进行回答了吧。

四, 小结

综上, 当已知数据频率的分布, 使用和数据频率分布对称的函数进行变换, 可以得到较好的单变量数据变换效果。

原文发布于微信公众号 - AI2ML人工智能to机器学习(mloptimization)

原文发表时间:2016-10-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏技术随笔

[译] 用于语义分割的全卷积网络FCN(UC Berkeley)题目:用于语义分割的全卷积网络摘要1. 引言2. 相关工作3. 全卷积网络4 分割架构5 结果6 结论附录A IU上界附录B 更多的结果

42270
来自专栏GAN&CV

风格迁移背后原理及tensorflow实现

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_25737169/article/d...

31710
来自专栏机器之心

从90年代的SRNN开始,纵览循环神经网络27年的研究进展

285120
来自专栏目标检测和深度学习

入门 | 从零开始,了解元学习

9910
来自专栏杂文共赏

蚂蚁金服论文

通常,图表征学习的目标是学习一个函数:f(\mathcal{X},\mathcal{G}) ,利用\mathcal{G}空间中附加的图结构,而不是传统的只考虑f...

59670
来自专栏ATYUN订阅号

在不同的任务中,我应该选择哪种机器学习算法?

当开始研究数据科学时,我经常面临一个问题,那就是为我的特定问题选择最合适的算法。在本文中,我将尝试解释一些基本概念,并在不同的任务中使用不同类型的机器学习算法。...

34330
来自专栏机器之心

入门 | 从零开始,了解元学习

38590
来自专栏ml

Selective Search for Object Recognition 论文笔记【图片目标分割】

 这篇笔记,仅仅是对选择性算法介绍一下原理性知识,不对公式进行推倒. 前言: 这篇论文介绍的是,如果快速的找到的可能是物体目标的区域,不像使用传统的滑动窗口来暴...

376110
来自专栏机器之心

学界 | 在有池化层、1步幅的CNN上减少冗余计算,一种广泛适用的架构转换方法

28250
来自专栏机器学习养成记

基于随机森林识别特征重要性(翻译)

博主Slav Ivanov 的文章《Identifying churn drivers with Random Forests 》部分内容翻译。博主有一款自己的...

60580

扫码关注云+社区

领取腾讯云代金券