首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据的湖泊

打孔卡被发明出来后,磁带被发明出来,然后是磁盘存储和数据库管理系统,紧跟着是第四代编程语言、元数据、软盘和移动计算。技术进步的如此之快,以至于我们甚至来不及记清楚它们的名字。很快个人电脑和电子表格就像西装和领带一样随处可见。

在告诉发展的几十年里,公司经历了从没有自动化到高度自动化的转变。但在转变过程中,存储却始终是一项制约的因素。长久以来,在面对大数据量的时候,不是存储容量不够就是价格太高。这个瓶颈制约了既有系统的性能,并且对系统未来的可选方案产生了深刻的影响。

大数据来了

随后,大数据技术改变了世界。Hadoop分布式文件系统是大数据技术的最好的代表。这个开源软件框架的设计初衷是解决在分布式计算集群中的存储和处理大量数据的难题。大数据技术有效的解放了存储包括在价格和技术能力的限制,更为重要的是,在大数据技术的帮助下,一个全新的世界正向我们敞开大门。

简单来说,大数据刷新了我们对数据的认识。激增的数据可以被大数据系统保存并分析,这不仅是一项工业界的革命,更是一次世界的革命。MB、GB、TB.....旧有的数据量单位在这个存储容量被解放的新世界中已不再适用。

数据湖来了

随着大数据的蓬勃发展,不少机构开始将源源不断的数据流导入到一个叫做“数据湖”的设备中去。

把数据放进去是小菜一碟儿,然而,想从这浩瀚的知识海洋中拽出点什么有用的东西却极具挑战。一些机构开始向数据科学家们寻求帮助。于是,大量的经费被投入研发,然而,如同这些机构一样,大数据对于数据科学家而言也是一个全新的领域。尽管投入高昂,但分析上难有突破,而误报和其它错误倒是时有发生。大数据催生了用广袤的数据湖泊来筛查数据。

在数据湖中,过去商业社会所崇尚的规模产生价值在数据湖中已然失效了。对于数据湖来说,数据确实在持续的增长,却很难用财富堆积出其中的价值。

“单向”的数据湖

业务用户会对数据湖中池化的信息感到一筹莫展的原因有很多,核心的问题在于,湖中的数据增长的越多,其分析难度越大。任何规模可观的数据湖都常常被人戏谑为“单向湖”,因为数据被不断的推进湖里,但分析报告却始终难产,或者数据被推入湖中之后仅被访问一次。

这是一项昂贵且令人沮丧的悖论,数据湖成长的越大,就越具有潜在的洞察能力,但对于机构而言,却越无用。如果没人去使用数据湖中的数据,那么数据湖对于机构就毫无意义。然而,为了从数据湖中榨取有用的信息,机构开始在存储和雇佣专业人员上投入了大量资金。

那么问题来了,为什么数据湖会变成“单向”湖,对此我们又能做些什么呢?大数据和数据湖中确实蕴含着巨大的潜力,但似乎没有人能从他们的投资中获得与其相当的回报。数据湖变成“单向”数据湖有很多原因。但追根溯源,这些问题都指向同一问题,也就是数据在一开始是如何被导入数据湖的,期初的目标就不是对数据做出什么规划。相反,数据湖仅仅被当做一个倾泻数据的垃圾堆。绝大部分精力都被投入在如何尽可能的从所有数据源头收集数据,而仅有少数工程师和公司思考了如何将数据湖投入未来的使用。

难道数据湖的归宿就是变成垃圾场吗?有什么办法能够让数据湖变成具有生产力和价值的地方吗?大数据的允诺难道只是各家厂商在风口上样的猪吗?确实,数据湖有潜力成为数据分析和处理的基石。然而,只要人们还是单纯的朝数据湖中倾倒数据,而几乎不为未来使用作出规划,那么数据湖就逃不开成为垃圾场的宿命。

如果数据被单纯的倒进数据湖会发生什么呢?让我们来把核心的问题一个一个整理出来。

第一个问题是,有用的数据对于分析师来说会变的难以发现,因为他们被掩藏在堆积如山的不相关的信息后面。本来对企业有用的数据就屈指可数。更鉴于数据湖的储量巨大,在千人一面的数据世界里,这又增加了搜寻的难度。换句话说,有用的数据不会长着腿从如深山一般的数据湖里走出来。

第二个相关的问题是,用来描述数据湖中的数据个体的元数据并没有被捕捉或存放在一个能被访问到的地方。在数据湖内,只有初始数据被保留了下来。这让数据分析变的不可捉摸,因为数据分析师没法知道这些数据是从哪儿来的,也没法知道数据的具体意义是什么。为了让分析结果产生效果,机构需要能访问到准确的元数据信息,这样就能知道在湖中找到的数据的背景意义。

单向数据湖的第三个缺点是数据关系丢了,或者从没被识别过。原有的数据源非常巨大,以致重要的数据关系没有被导入湖中。因为将数据关系导入数据湖被认为是一项太繁琐而难处理的工作。

对于单向数据湖中的数据,这些麻烦仅仅是个开始。事实上,在有效利用数据湖的历程中,还会面临许多技术难题。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181027G04T7800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券