学习
实践
活动
专区
工具
TVP
写文章

不要把数据湖建成垃圾场!

先,让我们回顾数据湖的概念:数据湖是一个系统或一个按其原生数据格式储存大量原始数据的数据储存库(Repository),包括结构化数据、半结构化数据、非结构化数据(CSV, logs,XML,JSON)和二进制数据(图像\声频\视频)。比较公认的是这个数据储存库是一个基于Hadoop的Repository。数据湖是伴随大数据的推出而出现的,一些企业为了进行面向大数据分析将一些转换后的数据(如基于Hadoop和MapReduce)也放入数据湖中。

些年随着IT技术的快速发展,各种形式的数据的增长速度令人目瞪口呆,譬如IoT数据、电商平台数据的增长都是按秒级计算的,并且具有实时性强的特点。大数据形成的格局使得许多企业的应用举步艰难。对于适合进行中心化处理的的业务,一些企业采用了这种中心化储存并做出响应的数据管理方法,诸如 Amazon、Google、Microsoft,Cloudera,Teradata等都为此建立了数据湖.

而现实是,许多企业由于其业务的特点并未建成真正意义下的数据湖,即在如此多的数据中未获得深度认识和有价值的内容。有统计数据表明,企业数据中超过70%未得到很好应用。对于大多数用户来说, 从大量的数据资产中只发现一小部分真正有价值的东西已司空见惯。这是因为我们通常是在目的不十分明确、或缺乏企业战略的整体性考虑的情况下匆忙地建立数据湖用于汇集来自不同源的各种数据,使得用户难以找到并应用这些数据,更糟糕的是, 即使当他们找到了这些数据资源,却由于质疑其可信性而难以使用。究其原因,以下几点可能是主要问题所在:

1数据湖不是为大数据分析所建。由于缺乏深度理解业务的需求、大数据分析的目的、特点、手段和方法,建成的数据湖可能是一个个失连的数据池;

2采用的大数据分析的常规方法和手段可能不适合你的企业的业务需求。有的领域一直遵循的是行业的数据交换国际标准,如果采用常规的大数据分析的数据管理技术或手段(如Hadoop和基于DFS的MapReduce),则需要对数据进行转换以满足这些技术的要求,这种做法带来了数据多次转换的成本以及巨大量的数据冗余。可能更糟糕的是这样做可能会使原行业中成熟的分析方法不可用,而常规的大数据分析方法却难以完全胜任。

3入湖的数据的不能追根朔源。即入湖的是什么数据?/谁拥有这些数据?/为什么要放到湖里去/这些数据确实属于这个湖吗?/数据的来源正确吗?/

4数据湖缺乏为高效的数据组织、良好的数据连接、跨行业(专业)的数据共享提供稳定的、透明的、生态的数据架构进行的顶层设计。

5数据湖中的数据难以保证其实时性和时效性。

果我们不是很好的回答这些问题并应对挑战,就会像Gartner预测那样:数据湖就有可能建成垃圾场。而这个问题的解决是一个系统工程,从数据汇集(采集)、到数据集成和数据转换再到数据存储和管理,诸多的环节,既要有宏观的整体考虑,还有在每个具体环节上有具体的策略和方法。宏观上讲,以下几个方面是需要重点考虑的:

1采用面向大数据分析的数据湖设计要与自己的业务需求相匹配,要以业务驱动为主、数据驱动为辅进行顶层设计。

2数据湖的治理。治理的重要目标之一是在企业内部中创建数据的透明度,使得利益相关者从不同角度能参与数据的治理并获益,譬如数据拥有者、数据管理者、数据提供者、数据监管者以及数据应用者等分享其责、权、利。显然这是一个复杂的话题,数据安全性、隐私性等等众多因素都会对这种治理提出挑战。

3 Data Provenance。这一点在上篇“何为Data Provenance?”中已介绍过。通过Data Provenance,可以对数据湖中的数据追根溯源。

4在数据存储、数据管理以及数据服务等方面还要结合实时技术的特点。

5 要减少开源软件的单纯使用,要记住免费的技术就不是产品,给你带来了效率,也给你留下了后患,而且是无责可寻。

实上数据湖是否是你的企业的最佳解决方案,重点在于是否适合你的业务应用?我们要做到“事半功倍”而不是“事倍功半”。欧洲的空中客车公司在制造A380时的理念秉承的是制造超大型客机并以大机场为运营中心,而波音公司则采取了去中心化运营理念并放弃制造超大型客机。两个空中巨头都有自己独立的战略思考,走自己的路。随着大数据的发展,那么后大数据时代是啥?似乎目前已经有了一些眉目。因此,无论是哪个行业,技术的选型不仅仅是跟随当前的流行技术,更重要的是要在企业的战略框架下选择最适合的技术。

(茶歇IT,见仁见智)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181206G1P9KR00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

关注

腾讯云开发者公众号
10元无门槛代金券
洞察腾讯核心技术
剖析业界实践案例
腾讯云开发者公众号二维码

扫码关注腾讯云开发者

领取腾讯云代金券