首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

任昱衡:去腐生肌,说说大数据中的异常数据删除

2015年5月11日,媒体报道了宇宙上小型椭圆星系的离群之谜。2013年,天文学家发现了一个小型椭圆星系,然而这个椭圆星系一直是个谜。该星系没有任何特征、没有其它星系的螺旋结构,看起来像是一个被孤立的星系,仿佛与宇宙上所有的外层恒星没有任何关联。

为了解开离群星系之谜,天文学家对公开的天文数据库进行了大规模搜索,最终在195个小型椭圆星系中发现了11个离群星系。对这11个星系分别进行研究之后,科学家终于得出了结论。这些星系在围绕大星系旋转的过程中,自身的外围恒星不断被剥离,紧接着第三个星系从这些星系的底部与其近距离相遇,这时自身星系会受其重力作用像弹弓一样被扔出了星团,成为离群星系。

就像宇宙中存在着少数的离群星系,数据库中也存在着少数的离群数据。离群数据就是在海量数据中与大部分数据行为模式不一致的数据。离群数据的产生原因有很多,比如计算机录入错误、人为错误等。在数据分析中,应当检测并提取出离群数据,否则会影响根据数据分析结果进行决策的决策者。

下图为离群数据的图示:

普瑞辛格市场调研公司曾经给《中国财富》出示了两组数据,证明了调研数据严谨的重要性。两份相同的调研问卷,两种结构完全相同的抽样,却产生了差异巨大的两组数据。普瑞辛格公司的副总经理邵志刚称,国内某家知名电视机生产公司因为这次调研将20多人的市场研究部门注销、全部人员被裁减。

调查问卷的问题是:列举您比较青睐的电视机品牌。第一组得出的结论是:15%的消费者首选本公司的电视机;第二组得出的结论却是:有将近40%的消费者认为购买电视机首选本公司。公司高层对于两种巨大差异的数据非常生气,两个完全相同的调研抽样,为何会出现如此矛盾的结果呢?公司随即进行了调研诊断,找出了问题的真相。

普瑞辛格接受了这个任务。执行人员与调研小组进行了深入交流,很快得出了诊断结论:第二组调研小组的数据存在异常,是不可信的。调研小组在调研的过程中对被访问者存在误导行为。

原来,第二组进行访问的时候,所有成员统一佩带了公司发放的领带。而领带上有明显的本公司标志,被访问者通过观察一般都可以猜测出调研的主办方。第二组还犯了一个错误,就是在调研过程中,向被访问者出示的选项记录板,把本公司的名字放在了预备选项的第一位。这样,向被访问者接收到了调研的主办方信息,从而影响本身的客观选择。

公司董事长开除调研部门主管时说:“如果我相信了你们的数据,公司将增加一倍的生产计划,这给公司带来的损失可能超过千万,这个责任不知谁能承担得起。”尽管大数据对公司的发展来说有着重要意义,但是因为人为原因导致统计出现的错误数据还不如没有数据。众多中国企业家由此对数据产生了恐慌和无奈。

普瑞辛格对异常数据的调查分析给其它企业敲响了警钟。在一个数据丰富的数据库中,离群数据与非离群数据之间并没有根本区别。实际上,用户对于离群数据的挖掘必须通过一个阈值的界定。将偏差度高于阈值的所有集群标记为离群值集群,集群中的成员都是离群数据。离群数据检测主要有以下几种方法:

01

统计方法

统计学方法是指基于模型根据对象拟合模型的情况来评估数据的方法。概率分布模型检测离群数据的应用最普遍,在这种模型中,代表离群数据的离群点具有低概率。运用概率分布模型检测离群值的前提是知道数据集合服从哪一种分布,如果估计错误就造成了重尾分布。

02

基于密度的离群点检测

从密度的角度来看,离群点是在低密度区域中的对象。基于密度的离群点检测具有一定的局限性。当数据包含不同密度的区域时,这种方法就不能正确的识别离群点。

03

基于聚类的技术

聚类检测离群点的方法有很多种,应用最普遍的方法是通过丢弃远离其他簇的小簇检测离群值,这个方法可以同其它聚类技术一起使用。还有一种比较系统的方法是首先聚类所有对象,然后评估对象属于簇的程度,如果该对象不强属于任何簇,那么该对象就是离群数据。

通常,对离群数据进行检测主要是为了清洗数据与挖掘数据。通过离群数据的检测可以发现数据的“小众模式”,即数据特征显著不同于其它数据的对象。在人们的日常生活中,某个人认为是噪音的声音对另一个人来说可能是信号。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200429A055GS00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券