【零一】#操作教程贴#从0开始,教你如何做数据分析#中阶#第八篇

大家好,我是零一。第一次用手机写文章,哈。在车上的时间看了一本书,余下的时间,我想应该可以写一篇文章。图片等到了地儿了,再用电脑补上。

我的公众微信号是start_data,欢迎大家关注。

上次跟大家介绍的预测,并没有深入讨论,以后有时间,我在整理一个实例系列的文章,跟大家深入讨论这些技术。今天应该要讲异常检测。异常检测也叫孤立点检测,或离群点检测。

如我前文所说,我们天天监控店铺数据,目的就是为了发现异常并及时预警,如果一切正常,那咱们就啥事儿都没有。万一有异常数据出现,那我们就要做进一步的分析,找出导致异常的罪魁祸首。

异常检测,操作和观测起来异常简单,用箱线图或者散点图即可。

大家看下图,是某行业按销量排名前4004个宝贝的价格散点图。非常明显,有一个孤立点,居然卖12W+

当我们发现这种孤立点的时候,必须要考虑的是:

1丶这个数据是否有误?要如何处理?

2丶如果数据无误,是什么原因?是否需要处理?

辨别是否有误,就需要调出源数据进行检查。这个相当简单,只要做核对,以及根据逻辑和常理来判别即可。但也有无法判定的情况。

我们先说第一个情况。如果我们判断是数据出错,而我们又无法拿到正确的数据,此时我们就需要对这个异常值进行处理。

异常值(数据有误的情况下)处理的方法:

1丶更正。2丶删除。3丶替换。

下面是通过生e经下载下来的数据,共有325行数据。

对成交量丶销售额丶高质宝贝数分别作出散点图(我是做演示说明,不要再跟我纠结这个数据准不准等问题了)

销售额这里明显有一个孤立点。如果我们不处理这个孤立点的话,可能会影响我们后续的分析结果。

可以直接定位到这个点的位置,在散点图看一下,是在第77个点,那马上就可以定位到excel的第78行

经过筛选,可以直接拿出毛衣这组数据。

(为什么散点图是第77个点,而excel中是第78行?这个问题其实之前一直有人问我。但如果阅读到这一篇,还不能独立思考这个问题的话,那请先回过头去看前面的7篇)

经过和生e经的数据对比,这个数据没有错,生e经上面就是这个数据。但是根据逻辑和常识,可以立马判定这个数据是个错误值。

“为什么能立马判定这个是错误值?”如果不明白的话还是自己想啊,哈哈。

确定这个数据是个错误值后,我们也无法更正这个数据了。那要如何处理这个数据呢?已经无法更正了,就剩余两个方法:1丶删除。2丶替换。

删除的话,这里不适用。一删就少了一个月的数据了。那这里就用替换。

怎么替换?那方法就多的去了。最简单的方法是用平均值替换法,平均值替换也有多种技巧。

方法1丶取这个值的前后两个数据的平均值,也就是(935086015+894448225)/2=914767120,用这个数字来替换,就要比之前的靠谱多了。

方法2丶先剔除错误行,然后算出平均售价,用平均售价乘以错误行的成交量即可。算得173*5292179=915546967

理论上面来讲应该是方法2比较准确一点。我就用方法2替换这个错误值。替换后的散点图如下。

异常值就不见了,我们就可以对这组数据做分析了。

================================================================

这里介绍下数据挖掘套件的功能,数据准备——清除数据——离群值

这个功能也是为了避免数据有误,导致分析结果偏离的问题。

一般操作中,拿到数据,都必须要分析下是否有孤立点,因为孤立点不处理就会影响我们的分析结果

可以选择是要对那一列数据做离群值处理

设定阈值,我们可以通过拖动下面的指示条或者手动输入阈值的方式,来指定。

效果如下,被划线填充的部分就是我们界定的孤立点。这部分数据将会被处理

选择处理方法。这个就根据业务场景来确定的。如果可以删就删,不能删,就可以指定范围更改,或者用平均值。

这个就更加方便一点,方法也可以给我们选择。一般操作中在数据样本少的时候一般是不能删除的,只有数据样本大的时候才可以考虑删除。

===================================================================

另一种情况,如果这个孤立点不是错误值呢?也就是数据无误,那这个时候,我们就要深入分析了。

看下面这个案例吧!虽然特别简单,但可以表达清楚即可。

某店的销售额,每天记录下来,通过观察即可发现(如果是淘宝,数据魔方,生e经等工具都有这个数据的,在网上就可以看到)

发现18号销售额突然下降。依然是先判别是否错误值。判别无误。

数据无错的情况下,我们要找原因(这个案例真心太简单,将就着吧)

第一步是分解指标,找到关键指标。

通过分解销售额=客单价X转化率X访客数

这时,我们需要检查的就是这三个指标。

客单价目测没有问题。

转化率非常明显,在18号有一个最小值。

访客数在8号居然是有升无减。。那锁定转化率的问题。

事情还没完。。我们接着分解转化率。

最终只要细细看下这些转化率指标即可。当然也可以想办法把指标分得更细,再观察。余下的事情就留给读者思考和实践吧。我也到点了。

这一篇我介绍得很简单,大家也不要被我误导了。其实异常检测,不仅仅能做这么简单的事情,很多我们熟知的功能其实就用的异常检测。比如:

1丶站长通过日志中的孤立点,发现入侵者

2丶老师通过IQ测试分析孤立点,发现天才or白痴

3丶气象站人员通过孤立点,发现灾害or极端天气

4丶淘宝or银行or电信,发现欺诈or异常行为

等等。

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2014-01-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据

用R语言进行文本挖掘和主题建模

我们每天都会遇到各种各样的文本数据 - 但大部分是非结构化的,并不是全部都是有价值的。请继续阅读以了解文本挖掘如何提供帮助。

4151
来自专栏机器人网

[学习}28 款 GitHub 最流行的开源机器学习项目

现在机器学习逐渐成为行业热门,经过二十几年的发展,机器学习目前也有了十分广泛的应用,如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊...

4138
来自专栏IT派

7月Python最佳开源项目Top 10

【导读】七月就要结束了,小编为大家整理了本月 Python 最受欢迎的十大开源项目。他山之石,可以攻玉,爱好Python的朋友们一起学习Github上的优秀项目...

1073
来自专栏大数据文摘

根本停不下来!给它一个轮廓,TensorFlow还你一只完整的喵 (附论文下载)

1494
来自专栏量子位

TensorFlow 1.9.0正式版来了!新手指南全新改版,支持梯度提升树估计器

1162
来自专栏大数据文摘

人工智能黑暗面

当计算科学发展的不够完善,还没能解决启发式问题的时候,很多安全问题都是利用规则来解决的,这些规则都是“死”的。

2971
来自专栏计算机视觉life

Facebook Surround360 学习笔记--(4)色彩/视差不一致问题

surround360的开源资料地址: 下载好代码和测试数据集,配置好环境,关于环境配置可以参考这篇博客,写的挺详细: 运行代码的说明可以参考这篇博客...

2315
来自专栏新智元

【Science】破解密码“AlphaGo”诞生,训练Gan破解27%LinkedIn测试集密码

【新智元导读】一项新的研究旨在使用生成对抗网络(GAN) 来加快密码破解的速度。斯蒂文斯理工学院的研究人员用类似“AlphaGo”的方法,利用超过 4300 万...

3336
来自专栏目标检测和深度学习

资源 | Texture:一个优雅的开源学术论文书写工具

机器之心整理 作者:思源 近日,Substance 在 GitHub 上开源了一个用于结构文本的文字处理工具 Texture,他们表示该工具像 LaTeX 一样...

39110
来自专栏专知

简单粗暴TensorFlow学习教程(PDF)

【导读】Xihan Li(雪麒)撰写了一份《简单粗暴TensorFlow》的入门教程,基于TensorFlow的Eager Execution(动态图)模式,力...

1.3K3

扫码关注云+社区

领取腾讯云代金券