Outlier 预处理流程图

我们在“一个奇异值的江湖 -- 经典统计观” 和 “一个奇异值的江湖 -- 机器学习观” 里面我们介绍了Outlier处理的基本的方法。 我们在“R语言和表数据分析” 里介绍了一个数据分析的流程。 根据8-2原则, 我们知道, 80%的时间都花在数据预处理上的。

有了理论方面的积累, 这里我们给出一个默认对Outlier预处理的流程图, 方便大家实践。

流程图

第一层: 根据行业经验规则直接过滤

第二层: 可视化直接人肉。 但是这里要分高维数据和一二维数据的可视化。

对于高维数据可视化, 又分成降维度的可视化, 一般适用于大维度。 和扩展坐标系的可视化, 一般适用于小维度。

第三层: 统计还是机器学习手段。 一般来说统计手段速度更快。 而机器学习手段一般效果更佳。 所以要根据数据量大小来决定。 当数据量大, 统计方法用的更多。 当数据量小的时候, 仅仅统计方法效果不太好的时候, 才会试试机器学习方法。

第四层:多维数据还是一维数据的统计还是机器学习。 多维情况下, 统计的方法一般采用Cocharan Test的。一维一般采用Grubb Test 。

小结:

一般来说统计的Grubb效果很好,机器学习的LOF的效果有可能会更好, 但是LOF很慢很慢, 可是LOF使用多维情况。 可以优先实验这两个方法。

原文发布于微信公众号 - AI2ML人工智能to机器学习(mloptimization)

原文发表时间:2017-07-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小巫技术博客

深度学习的一些概念分享

9320
来自专栏杂七杂八

CS231n学习笔记--计算机视觉历史回顾与介绍2

PASCAL Visial Object Challenge为图像识别和分类提供了一整套标准化的优秀的数据集,共20类。

8530
来自专栏机器之心

深度 | 最优解的平坦度与鲁棒性,我们该如何度量模型的泛化能力

30360
来自专栏华章科技

当我们说数据挖掘的时候我们在说什么

现在市面上谈论到的数据挖掘基本上都是基于统计学习的监督学习或非监督学习问题。尤其以监督学习应用面更广。

9520
来自专栏机器之心

观点 | 如何优雅地从四个方面加深对深度学习的理解

2017 年 12 月 NIPS 的 Test-of-Time Award 颁奖典礼上,Ali Rahimi 这样呼吁人们加深对深度学习的理解:

10110
来自专栏机器之心

观点 | 增加深度,加速神经网络优化?这是一份反直觉的实验结果

选自offconvex 作者:Nadav Cohen 机器之心编译 参与:晏奇、黄小天 深度学习的根本理论问题之一是「深度有何作用」?虽然增加神经网络的层数可...

35480
来自专栏机器之心

学界 | Adobe提出深度抠图:利用卷积网络分离图像前景与背景

选自arXiv 机器之心编译 参与:蒋思源 抠图,一直是一件体力活,它需要大量的操作与时间。而传统抠图算法主要是以色彩为特征分离前景与背景,并在小数据集上完成,...

468110
来自专栏梦里茶室

读论文系列:Deep transfer learning person re-identification

arxiv 2016 by Mengyue Geng, Yaowei Wang, Tao Xiang, Yonghong Tian Transfer Lear...

276100
来自专栏MyBlog

关于强化学习(1)

来源于Simple statistical gradient-following algorithms for connectionist reinforcem...

22230
来自专栏专知

【深度学习最精炼详实干货中文讲义】复旦邱锡鹏老师《神经网络与深度学习》讲义报告分享01(附报告pdf下载)

【导读】复旦大学副教授、博士生导师、开源自然语言处理工具FudanNLP的主要开发者邱锡鹏(http://nlp.fudan.edu.cn/xpqiu/)老师撰...

48850

扫码关注云+社区

领取腾讯云代金券