首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

别看数据湖由来已久,数据价值评估仍然难倒了很多企业,快学学吧

用工匠精神打造精彩文章,分享最新科技资讯,从不同角度剖析资讯内容,剑走偏锋是我的态度,茶余饭后聊百味!各位读者们老爷们好吖,我是文艺与气质于一身实力派小编——小宸,这里可以让您看到最新最有趣的资讯内容,让您感到不同凡响的科技资讯内容,会给大家带来意外惊喜,好了不跟大家逗乐了,给大家呈现今天的精彩内容:

运用数据分析洞察业务价值,EDW是业界公认的技术方案。

比尔·恩门(Bill Inmon)【是数据仓库之父、数据仓库概念的创始人】,他的理论依据关键字眼儿是:面向主题的、集成的、自顶向下的等等。他的思想与见识在所有重量级的计算机协会、许多产业会议、技术研讨会上,都博得了无比的敬重。他写过650多篇文章,大多发布在世界最知名的IT刊物里。

1、数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库。

3、数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

……

所以,自1990年Bill Inmon提出了数据仓库概念以来,数据仓库已从早期的探索走向实用阶段,进入了一个快速发展时期。在此期间,全球经济急速发展,使企业对信息的需求大大加剧,这是数据仓库长期稳健发展的根本原因;

而另外,移动互联网和大数据的蓬勃发展,催生了企业对数据湖的建设需求。

数据湖概念是2011年提出来的,最初数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的开发、维护成本,细节数据丢失等问题出现的。 数据湖大多是相对于传统基于RDBMS的数据仓库,而从2011年前后,也就是数据湖概念出现的时候,很多数据仓库逐渐迁移到以Hadoop为基础的技术栈上,而且除了结构化数据,半结构化、非结构数据也逐渐的存储到数据仓库中,并提供此类服务。这样的数据仓库,已经具有了数据湖的部分功能。

引用:

数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。

基于前面讲的这种时代变革,从EDW到Data Lake实际上是一个大转折和大跳跃。但这种跳跃也非常巧妙,我们看到Data Lake至今仍然是比较年轻的概念,很多技术和能力支撑都是新领域新挑战,所以基本上都要从头学起,甚至需要与EDW的成熟性相提并论或者巧妙结合,这样才能发挥两大领域的各自优势。

所以,有些人就问了——在混搭架构下(EDW+Data Lake模式下),如何考量各平台的关键指标?

这是一个非常好的问题,什么样的平台承载什么样的能力,这主要依赖于业务,从业务到技术,最后甚至影响各自的数据流向。

在EDW域:

如何通过优化不断提升SQL性能?汇总数据该如何整合,以支撑核心业务?系统是否具备并发查询和高级分析功能?第三方工具集成能力、应用组件是否成熟?系统如何横向扩展?混合/动态负载支撑?系统灾难的恢复方法如何有效支撑?……在Data Lake域:

如何接入多个系统的不同数据源?海量历史数据是否保留并存档?是否具备低廉的存储成本?如何支撑高时效业务?数据如何连续加载?系统是否具备数据管理和安全的能力?机器学习/算法库的成熟度?……

我想我们可以参考Gartner的“The LDW Solution Path and Its Three Streams”这篇文章。其内容有介绍:在对解决方案进行包装时,下述三个能力通常是并行执行的路径,整个过程通过不断迭代达到系统的能力扩展。

Stream 1(数据仓库流):

此流归属于平台能力。构建高性能数据仓库,不仅承载数据模型、自动化测试和报表应用,更要提供的并发混合负载的分析支撑;DW是数据应用与开发的出口,主要体现其业务价值;所以DW是评估数据价值的“手段”。

Stream 2(灵敏开发和自服务流):

此流归属于使用能力。灵敏的架构促进自服务工作协同,面向最终用户提供灵敏开发和自服务能力。AGILE就像一个数据加工厂。它依赖于底层LAKE的基础数据资源,同时为上层DW提供能力输出; 所以,AGILE是评估数据价值的“载体”。

Stream 3(数据湖流):

此流归属于平台能力。通过构建超大规模非结构化处理系统,支撑企业级ETL和数据沙箱;LAKE是大数据资源的加工入口,主要体现其数据承载力;所以,仅依赖于LAKE很难评估数据的价值。

介绍到这里,我想您也看明白了,Data Lake就算再普遍,也仍然需要上层业务的导向;而业务实现虽然依赖于EDW,但是中间的处理过程却依赖于开发和服务。重点就是你——AGILE能力。这里有架构的创建、有自服务的工作环境、有数据探索和集成,还有一切面向用户的敏捷部署方案。

数据的价值评估不仅要看数据访问频度,还要看为了支撑业务,数据架构和数据流转是如何作用域整个处理环节的。因为迄今为止,众人们都认为低价值密度数据要在Data Lake中贯穿(如大数据存储、企业ETL、数据探索等),高价值密度数据要在EDW中贯穿(指标、报表、客户画像等),所以数据的价值评估就离不开中间的承载和处理环节。

AGILE其实也暴露出另一个问题:他依赖于人,依赖于设计人员、开发人员、运维人员等,大数据的后十年就是依赖于人的,人力成本才是核心生产力。

分析世界讲方案——偶然早7点,为您带来精彩的一页。

感谢阅读、感谢共鸣。

今天资讯内容到此为止,大家积极探讨资讯内容,给小编提更多宝贵意见,留下您的关注,小编将持续为大家更新更多的劲爆科技资讯内容,让大家生活充满乐趣。拜拜...

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181026A1OS0000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券