前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >译文|暗数据:企业的潜在威胁!

译文|暗数据:企业的潜在威胁!

作者头像
CDA数据分析师
发布2018-02-23 17:13:37
7300
发布2018-02-23 17:13:37
举报
文章被收录于专栏:CDA数据分析师CDA数据分析师
近年来有几个趋势对企业的影响就像大数据那般显著。各类规模和形态的公司在近几年都陆陆续续以极大的热情步入大数据时代,因为他们都意识到了大数据对他们的公司会有怎样的益处。从开拓创新新的盈利方式到提高企业的生产力,大数据的这些令人印象深刻的优势很少受到争议。但是要正确地使用大数据,一个公司必须首先收集和处理它,这意味着可能要从多个数据来源中收集尽可能多的信息。虽然一个企业的确基友可能用上他们所收集的所有数据,但更为常见的情况却是,一些数据将永远不会被使用。当谈到非结构化数据时,这的确是个问题。随着时间推移,所有未被使用的数据可能会带来一个问题——堵塞了数据中心,这很像可以堵住房子里的水管的那些黏糊糊的东西。专家们为这类数据创造了一个术语——暗数据(Dark data),如果你的公司没有清理这些暗数据,那它们很可能会增加公司的运营成本和各种安全隐患。

若要以正确的方式处理暗数据,你首先需要对它进行定义。那么暗数据究竟是什么呢?

简而言之,暗数据就是一个企业收集、处理和存储起来的,最后并没有投入任何特定用途的信息。通常情况下,暗数据将会闲置多年,在你的公司继续收集更多数据的同时占用数据中心中的宝贵空间。随着未使用数据的不断堆积,一些最开始可能只是小麻烦的问题会越积越严重。所有这些额外的数据都会导致增加开支,但更严重的是,这些数据通常是不受保护的,这等于打开了数据泄露和其他可能的安全事故的大门。

因此,如果暗数据是如此昂贵和危险,为什么各公司甚至忍受它们保持在身边?事实是,许多企业宁愿存储他们手机的所有数据,以确保他们遵守所有的法律法规。与此同时,企业都不情愿清空未使用的数据,因为他们永远不知道自己是否会在未来的某个时间需要它们。大数据分析能够产生一些解决问题的方法,而为了找到这些解决方案,企业需要用到相关的数据。就像那种常见的心态一样,仅仅因为你现在用不上它不代表它在以后也没有价值。然而这样的想法并不总会变成现实。如果有的话,这和囤积者的心态也没什么不同。即使一个企业不采取什么特点的心态,很多公司觉得他们实在是太忙了,以至于无法顾及到清理暗数据这档子事。

对暗数据的一次彻底清理可能十分耗时,这是事实,但结果也非常值得去努力。主要的挑战在于要摆脱暗数据,同时仍然持有任何必要的数据。在你的公司中你有几种方法可以做到这一点。其中最有效的方法是过滤数据。当收集由机器和互联网产生的数据时,你会发现数据伴随的很多有价值的信息在很大程度上是无用的。通过识别和隔离你所需要的数据,你能够把它从所有其他的杂音中分离出来。这有助于放置一开始就发生不必要的数据堆积的情况。在这一努力过程中,某些大数据工具能够有所帮助,但它取决于每个公司去识别哪些数据是最宝贵从而需要保留的,而哪些数据是最好清理掉的。

各企业还可以积极努力地通过把探索到的暗数据导入其他数据库来清理他们的数据中心。云计算在这一过程中可谓是特别得心应手。如果你的公司和一个云供应商有一种稳定的合作关系,那么利用它们来存储不需要的数据将会是一个既明智又经济划算的选择。当在使用此法时,你会从你的数据中心中摆脱暗数据,但是当你需要在一个新的分析项目中用到它时,你仍然可以使用它们。企业也可能会选择从他们的数据中心中把数据存档到一个单独的位置,例如将信息传送到硬盘驱动器中,这个驱动器比闪存存储的性能要差,但却是一个成本更低的替代性方案。

毫无疑问,暗数据可能对你的公司经营产生损害。如果没有正确的管理和数据保留策略,未使用的数据可以很快地成为一个企业的负担。最好的策略是尽早采取计划,并且长期坚持计划,这样的话你就永远不用再面对需要立即清理暗数据负载的挑战了。一个井井有条的数据中心往往意味着成功使用了大数据和浪费时间与资源之间的区别。

原文作者:Rick Delgado,本文由CDA数据分析研究院Cecilia翻译,更多内容敬请关注

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-07-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档