丢弃 or 保留?——大数据之异常数据

有人认为在处理大数据时忽略各种异常数据是最好的做法,为此他们创建了复杂的过滤程序,来舍弃那些异常的信息。在处理特定类型的数据时,这可能算是较为稳妥的做法,因为异常往往会导致结果的不准确。但实践证明,在某些时候和某些特定的情景中,异常数据要比其他的数据更有价值。对此,我们应该认识到的是“在没有进一步分析的情况下,丢弃数据的做法是不正确的”。

举例来说,在以数据加密为标准做法并且需要实时进行访问记录和数据检查的高端网络安全领域,识别并认定符合数据非特征运动的特征(即通过发现异常来检测安全问题)是至关重要的步骤。上述思想可以应用于从金融审计到科学探究再到检测网络威胁等领域,在这些领域,发现和识别非正常现象才是服务的关键。

在大数据的世界里,“异常数据”可能只是一个条目,在数百万的数据量中,这一个条目可能并不值得注意。但是,在对流量、访问和数据流进行分析时,这一个条目就可能具有无法估量的价值,并可能成为获取证据的关键信息。在计算机安全领域,发现异常具有特别重大的意义。但是很多的数据学家都不愿意为研究异常处理而占用其他任务的资源。

事实上,异常现象很可能是某种趋势的前兆。以网上购物为例,许多购买趋势在一开始就是早期产品使用者们创造的一种孤立异常现象;但这些产品随后可能成为时尚并最终成为顶级的产品。这种类型的信息(即早期趋势)可能带来销售周期的破与立。在这个方面,没有任何实例比华尔街更有说服力,在这个市场中任何异常的股票交易,都可能带来不可预料的恐慌和疯狂,而这一切可能只是源自从一堆大数据中发现的几个小事件。

通常情况下,只要数据集的规模足够大,异常现象就总会随之出现。某些领域中对异常价值的体现更具有意义,社交网络就是其中之一,在这个领域有大量的帖子、tweet信息和更新被投入大数据和分析程序,相关的企业会查看客户情绪等信息并以平行的方式对比在众多不同类型的时间序列中发现的异常现象,其中所涉及的思想就是类似的异常模式可能会出现在不同的维度中。

零售购物便是其中的一个典型案例。某些人群可能会在一年中相对固定地在Safeway、Trader Joe's或Whole Foods购买生活用品,但在年终他们会前往百思买和Toys“R”Us进行假日购物并引致相关商户年终预期销售量的增长。而苹果之类的公司则可能在一年中的大部分时间均维持较为平均的表现,但一旦新的手机产品发布,它们在全球的客户总会不约而同地为了这一金属与玻璃构成的工艺品而甘愿排队采购。

在需要与其他数据元素区分开来的重要数据中,上述信息就如海底针一般的存在。在一年中,苹果专卖店有约300天在临时购买模式(或利润率)方面都与典型的电子产品零售商均没有什么区别,但是一旦发生某个能引发两个或三个年度大事件的异常情况(例如新产品发布),这个异常就成为了苹果商店和其他电子零售商之间的最大区别。为了能专注于真正具有特异性的事件,我们可以使用各行业中常见的趋势来抵消可以预期的季节性变化。

在Twitter数据方面,不同维度之间通常有很大的差异。哈希标签通常与短暂或不规则现象相关,与之相比某个大国的用户所发布的大量tweet信息则具有规律性。由于在这种维度内部相似性更高的情况,我们应该对每个维度进行分开处理。按维度使用算法有助于在标签和用户名(而非位置和时区)成为最主要的异常来源的情况下做出判断,因为前述情况表明相关各群组中的项目之间几乎没有任何相似性。

鉴于异常的数量巨大,找出其中的意义是一项极为艰巨的任务,这也导致了以下问题:是什么导致了正常的流量中出现异常暴增的情况?有哪些领域与此相关?这是否与URL缩短器和Twitter直播视频流服务有关?按照异常情况的多少来排序的看法不够精细且有诸多限制;异常之间的联系通常存在于维度之中以及各维度之间的区域。各种算法可以共同产生强大的协同效应,但我们可能需要采用某种类聚过程才能发现其中的规律。

——本文摘自《智能数据时代:企业大数据战略与实战》

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2017-06-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏软件开发

从一个故事开始谈项目与团队管理

二战期间,英国国防部发现参战的飞机难免挨上高射机枪的枪子儿,受限于飞机重量和成本,他们只能在一处安装装甲增强防御力。但是在位置选择上犯了难:应该把装甲装在什么位...

24060
来自专栏杨熹的专栏

3 个方法让计划可以达成

生活中,我们经常会做计划,但很多都完成不了,经常以失败而告终,下面介绍 3 个方法让我们的计划可以达成。

11330
来自专栏封碎

暗时间 博客分类: 经典文章转载 生活浏览器工作

如果你有一台计算机,你装了一个系统之后就整天把它搁置在那里,你觉得这台计算机被实际使用了吗?没有。因为CPU整天运行的就是空闲进程。运行空闲进程也是一天,运行大...

10130
来自专栏知晓程序

各大 App 直接打开小程序!微信收割移动互联网的时间开始了

13430
来自专栏C语言及其他语言

程序员的困境及如何摆脱这种困境?

近日笔者采访了几十位求职内核程序员这个岗位的候选人。这些候选人均来自大的优秀公司——公司多以芯片或嵌入式OS /系统而闻名。他们中的许多人都声称自己拥有至少10...

34180
来自专栏JAVA高级架构

为什么软件开发,人多,事少,还会工作量大?

本文所要分享的是软件开发过程中,亲身经历过的“怪现象”。为什么说怪呢,人多力量大,似乎才符合常理,但是往往在软件项目开展的过程中会出现人多、事少、工作量大的情况...

364140
来自专栏SDNLAB

Gartner:命令行接口(CLI)将被取而代之,它不再是网络运维的主要工具

Gartner声称:到2020年,CLI的使用将日渐式微。 多年来,网络工程师依赖命令行接口;据市场研究公司Gartner的分析师们声称,但是这种使用很普遍的工...

370130
来自专栏Python爬虫与算法进阶

知乎上值得关注的Python大佬

萌新整理了知乎上值得关注的Python大佬,来看看吧~ 综合类 @xlzd 比较全能的Python大牛,精通爬虫、后端 @廖雪峰 这个,相信大家都看过老师的入门...

35440
来自专栏极限编程

我的简单设计价值观

很多时候,我们习惯把简单跟容易理解为是一个意思,比如:这个问题好简单(复杂),另一层含义是:解决这个问题很容易(困难)?这个时候简单跟容易是一个意思。再比如说:...

23760
来自专栏C/C++基础

腾讯实习mini项目总结

第一次参加如此正式的产品项目组中,陌生的环境,陌生人给自己带来了很多的不适应,但正是这种新的成长环境和新的挑战,让我不在做自己熟悉的事,也许正如asoon在mi...

16430

扫码关注云+社区

领取腾讯云代金券