数据的阴暗面:什么是暗数据?为什么暗数据很重要?

最近引起热议的术语暗数据,确切的说,就是来自于大数据的阴暗面。尽管暗数据这个名字听起来不吉利(让人联想到一个少年哥特乐队会取的绰号),但是或许更加的准确。如果尽量减少不良的预感,暗数据更像是是大数据中光明的一面。

大部分的暗数据都被分类于结构造成的信息缺乏之中,而且,这些数据只被使用过一次,最后,就被储存在逻辑混乱,数量庞大的其他社群之中了。实际上,一个信息系统产生的80%的文档都未被二次使用。

那么,在我们进一步研究暗数据到底是什么(以及暗数据能够造成多大的影响)之前,我们必须要了解这个术语是如何出现的。简而言之,当信息管理系统遭到频繁的挑战,暗数据的出现应该看做一种警示。换而言之,不是我们如何管理信息,而是我们为什么要管理信息。某些数据,应该被隐藏起来。例如质量体系中的审计日志和训练记录等作为合乎规格的证据,就应该注意存储,加强管理。万一系统和进程被审核,这类数据就会被用到。作为一个IT人的观点,这种故意而为之的隐藏行为,可以起到一个保证数据安全的功能,同时,能够预防数据被非法入侵。

但是当频繁使用的内容在无意之间变成了暗数据的时候,这不仅仅是一种不方便,而是一个严峻的问题。当一个许多年前的投资建议书忽然消失,因而必须重建的时候,由此带来的后果不仅仅是重新修改以及更改用途,更会造成时间的浪费,做无用功。或者,当客户需要技术支持的时候,作为一个技术支持工程师必须能够浏览客户的所有的历史记录,即使所需数据分散在无数的业务解决方案以及文档存储库之中。

专家的意见:从失意之路转化到成功彼岸

自从暗数据这个名词出现以来,它被冠上的定义仍然有些悚人听闻,但是,专家们抛开其负面的问题,也就是说,将注意力投向暗数据的潜在价值,即最大程度的利用企业的信息资产。

Gartner,把暗数据当做一种积极的“闹钟”,提醒企业应该改变未被利用的数据的现状。“当常规的业务活动开展时,结构的收集,处理以及存储的信息就会转变成暗数据,尤其当这些数据不会被再次使用之后。”同样,Forbes认为暗数据由过街老鼠转变为香馍馍只有一个办法,就是将这些数据运用在其他的业务之中。“暗数据产生于不断增加的复杂的加工进程之中,由此,使之具备了规划未来产业形态的能力。”

将暗数据加入上下文之中,加入元数据的工作之中

最先提到暗数据时,我们首先会联想到它是对信息管理的一种挑战。现如今再提及暗数据的时候,我们会从一个更加理智的方面,把它看做一种管理利用现有信息的手段。由引擎驱使的就是元数据——从字面上看,就是关于数据的数据,可以在一个开放的领域内,进行确认,链接以及选取相互渗透的信息。

至于如何实现该建议,我们应该扩展自己对于元数据的使用方法,来创造一个更具整体性的商业观点,而不是局限于自身对元数据的观念。元数据包含着特殊的属性,它不仅仅和系统中的关键元素相互联系,同样,也可以智能地被项目、客户、工作流、状态栏以及其他的因子用于操控进程、分类数据。信息财产的价值只有当提及与其相关的元数据的总量,才能展现出来。

当驾驶员在路上需要物件来照亮的时候,对比于暗数据,元数据就像是一组全方位的车前灯,使用它的目的非常明确。元数据能够通过一个或多个代码库阐明这些关系,或者通过一个ERP系统和CRM系统,也能够确认信息在一个相容的环境下被读取,存储以及分享。元数据可以提供一个简明扼要的方式,来查找数据源或者历史信息,在此同时,可以确保工作流和业务流程都已被合理的管理。

更深层次的挖掘这个想法之后,就会发现,元数据也可以组成关于文件的发展和循环的信息,而这些记录更是包含了客户、流程、以及涉及到应用的创新、修订、存档、保留和销毁。完全能够和粒度细节相媲美、深度挖掘如评审、批准以及存取许可改变的确切时间戳。

从灰暗面到光明面:管理元数据

正因为暗数据是大数据的萎靡面,要扭转这样的局面只能依靠对元数据的管理。而且,IT行业的管理者在管理结构的时候也会获得更多的灵活性。把元数据当做一个微锚节点加入到文件之中,可以保证所有的企业信息都是可查找的,可利用的,可输出的——无论是任何种类的文件,格式和对象均可。

在这样的模式下企业就会发现,元数据常驻的时候,重要的数据就变少了。但是,信息该被最好的分类管理,以实现信息使用和信息价值的最大化。通过单独管理元数据,组织可以获得一个更为全面的企业内容的观念,即使与元数据相关联的信息中没有出现新的文件,如审计和偏差,元数据也可以提供一个过程和流程,使之变成自己的财产。

因此,当我们把暗数据当做一种未被充分利用的信息,就可以看出元数据包含了像素,如果你愿意,照明信息资产的连通和连配,用以创造一个观察信息的360度的视角。这种对信息管理的全景方法,不仅仅将暗数据予以利用,也使得分散的信息能够被更直接的运用。

原文标题:DARK DATA: WHAT IS IT AND WHY DOES IT MATTER?

原文作者:MIKA JAVANAINEN 本文由 Teradata 大数据咨询顾问赵玉翻译

内容来源:36大数据

原文发布于微信公众号 - 灯塔大数据(DTbigdata)

原文发表时间:2015-10-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SDNLAB

ECOMP和Open-O正式合并为ONAP

Linux基金会旗下两大开源MANO工作组Open-O和ECOMP日前宣布正式合并成为一个组织,开放网络自动化平台(ONAP)。 ? 新的开放网络自动化平台(O...

39380
来自专栏软件开发 -- 分享 互助 成长

浅谈保证软件工程质量的一些心得体会

前言: 质量这个词究竟有多重要,没有切身体会真的很难说的出来,从毕业到进入华为工作马上就要满1.5年了,现在这个词理解更加深刻了些。这么说吧,质量在华为的研发领...

21780
来自专栏云计算D1net

云计算:拼的是运维

云计算的IaaS、PaaS、SaaS最后那个S都是Service。就是说,无论你云计算长成什么样,都得要向用户提供“服务”而不仅仅是软硬件和各种资源。 【云计算...

79590
来自专栏后端技术探索

漫谈大型网站架构

作者介绍:陈康贤(花名龙隆),淘宝技术部技术专家,著有《大型分布式网站架构设计与实践》一书,在分布式系统架构设计、高并发系统设计、系统稳定性保障等领域积累了较为...

10210
来自专栏IT大咖说

与传统相比,混合云如何实现更便利的部署

内容来源:2017 年 12 月 22 日,Infortrend 大中华区总经理杨文仁在“2017IDC产业大会”进行《混合云应用与数据中心》演讲分享。IT 大...

21440
来自专栏海天一树

云技术简介

一、概念 ? “云计算”概念由Google提出,一如其名,这是一个美丽的网络应用模式。云计算是是分布式处理(Distributed Computing)、并...

789100
来自专栏腾讯移动品质中心TMQ的专栏

众测实战经验小结

随着互联网浪潮的推进,手机 App 进入了高速发展期,随之而来 App 的“不可替代性”也越来越弱化。

32610
来自专栏量子位

有了这个新框架,任何游戏都能变身AI训练场

夏乙 编译整理 量子位 出品 | 公众号 QbitAI ? 7小时前,全新的教AI打游戏框架Serpent.AI发布了。 截至量子位发稿时,这个框架在GitHu...

41450
来自专栏大数据和云计算技术

计算机系统结构变革在即?

15年6月,intel正式宣布167亿美元收购FPGA生产商Altera。此交易为该公司有史以来涉及金额最大的一次收购案例。167亿美金不是小数目,intel ...

32770
来自专栏Python中文社区

【腾讯云技术沙龙预告】云端数据库的设计之美

以数据为中心的信息化社会,数据库可以看做是所有应用程序成功运行的核心。而结合云计算,数据库的高可用性能够被放大到极致,可以实现按需付费、按需扩展、高可用性以及存...

19140

扫码关注云+社区

领取腾讯云代金券