别看数据湖由来已久，数据价值评估仍然难倒了很多企业，快学学吧

文章来源：企鹅号 - 华彩星空叶帆

用工匠精神打造精彩文章，分享最新科技资讯，从不同角度剖析资讯内容，剑走偏锋是我的态度，茶余饭后聊百味!各位读者们老爷们好吖，我是文艺与气质于一身实力派小编——小宸，这里可以让您看到最新最有趣的资讯内容，让您感到不同凡响的科技资讯内容，会给大家带来意外惊喜，好了不跟大家逗乐了，给大家呈现今天的精彩内容：

运用数据分析洞察业务价值，EDW是业界公认的技术方案。

比尔·恩门（Bill Inmon）【是数据仓库之父、数据仓库概念的创始人】，他的理论依据关键字眼儿是：面向主题的、集成的、自顶向下的等等。他的思想与见识在所有重量级的计算机协会、许多产业会议、技术研讨会上，都博得了无比的敬重。他写过650多篇文章，大多发布在世界最知名的IT刊物里。

1、数据仓库是面向主题的；操作型数据库的数据组织面向事务处理任务，而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面，一个主题通常与多个操作型信息系统相关。

2、数据仓库是集成的，数据仓库的数据有来自于分散的操作型数据，将所需数据从原来的数据中抽取出来，进行加工与集成，统一与综合之后才能进入数据仓库。

3、数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。

……

所以，自1990年Bill Inmon提出了数据仓库概念以来，数据仓库已从早期的探索走向实用阶段，进入了一个快速发展时期。在此期间，全球经济急速发展，使企业对信息的需求大大加剧，这是数据仓库长期稳健发展的根本原因；

而另外，移动互联网和大数据的蓬勃发展，催生了企业对数据湖的建设需求。

数据湖概念是2011年提出来的，最初数据湖是数据仓库的补充，是为了解决数据仓库漫长的开发周期，高昂的开发、维护成本，细节数据丢失等问题出现的。数据湖大多是相对于传统基于RDBMS的数据仓库，而从2011年前后，也就是数据湖概念出现的时候，很多数据仓库逐渐迁移到以Hadoop为基础的技术栈上，而且除了结构化数据，半结构化、非结构数据也逐渐的存储到数据仓库中，并提供此类服务。这样的数据仓库，已经具有了数据湖的部分功能。

引用：

数据湖或hub的概念最初是由大数据厂商提出的，表面上看，数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大，越需要各种不同种类的存储。最终，所有的企业数据都可以被认为是大数据，但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。数据湖的一部分价值是把不同种类的数据汇聚到一起，另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的，并且可以为用户提供越来越多的实时分析。

基于前面讲的这种时代变革，从EDW到Data Lake实际上是一个大转折和大跳跃。但这种跳跃也非常巧妙，我们看到Data Lake至今仍然是比较年轻的概念，很多技术和能力支撑都是新领域新挑战，所以基本上都要从头学起，甚至需要与EDW的成熟性相提并论或者巧妙结合，这样才能发挥两大领域的各自优势。

所以，有些人就问了——在混搭架构下（EDW+Data Lake模式下），如何考量各平台的关键指标？

这是一个非常好的问题，什么样的平台承载什么样的能力，这主要依赖于业务，从业务到技术，最后甚至影响各自的数据流向。

在EDW域：

如何通过优化不断提升SQL性能？汇总数据该如何整合，以支撑核心业务？系统是否具备并发查询和高级分析功能？第三方工具集成能力、应用组件是否成熟？系统如何横向扩展？混合/动态负载支撑？系统灾难的恢复方法如何有效支撑？……在Data Lake域：

如何接入多个系统的不同数据源？海量历史数据是否保留并存档？是否具备低廉的存储成本？如何支撑高时效业务？数据如何连续加载？系统是否具备数据管理和安全的能力？机器学习/算法库的成熟度？……

我想我们可以参考Gartner的“The LDW Solution Path and Its Three Streams”这篇文章。其内容有介绍：在对解决方案进行包装时，下述三个能力通常是并行执行的路径，整个过程通过不断迭代达到系统的能力扩展。

Stream 1（数据仓库流）：

此流归属于平台能力。构建高性能数据仓库，不仅承载数据模型、自动化测试和报表应用，更要提供的并发混合负载的分析支撑；DW是数据应用与开发的出口，主要体现其业务价值；所以DW是评估数据价值的“手段”。

Stream 2（灵敏开发和自服务流）：

此流归属于使用能力。灵敏的架构促进自服务工作协同，面向最终用户提供灵敏开发和自服务能力。AGILE就像一个数据加工厂。它依赖于底层LAKE的基础数据资源，同时为上层DW提供能力输出；所以，AGILE是评估数据价值的“载体”。

Stream 3（数据湖流）：

此流归属于平台能力。通过构建超大规模非结构化处理系统，支撑企业级ETL和数据沙箱；LAKE是大数据资源的加工入口，主要体现其数据承载力；所以，仅依赖于LAKE很难评估数据的价值。

介绍到这里，我想您也看明白了，Data Lake就算再普遍，也仍然需要上层业务的导向；而业务实现虽然依赖于EDW，但是中间的处理过程却依赖于开发和服务。重点就是你——AGILE能力。这里有架构的创建、有自服务的工作环境、有数据探索和集成，还有一切面向用户的敏捷部署方案。

数据的价值评估不仅要看数据访问频度，还要看为了支撑业务，数据架构和数据流转是如何作用域整个处理环节的。因为迄今为止，众人们都认为低价值密度数据要在Data Lake中贯穿（如大数据存储、企业ETL、数据探索等），高价值密度数据要在EDW中贯穿（指标、报表、客户画像等），所以数据的价值评估就离不开中间的承载和处理环节。

AGILE其实也暴露出另一个问题：他依赖于人，依赖于设计人员、开发人员、运维人员等，大数据的后十年就是依赖于人的，人力成本才是核心生产力。

分析世界讲方案——偶然早7点，为您带来精彩的一页。

感谢阅读、感谢共鸣。

今天资讯内容到此为止，大家积极探讨资讯内容，给小编提更多宝贵意见，留下您的关注，小编将持续为大家更新更多的劲爆科技资讯内容，让大家生活充满乐趣。拜拜...

发表于: 2018-10-262018-10-26 20:57:52
原文链接：https://kuaibao.qq.com/s/20181026A1OS0000?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

别看数据湖由来已久，数据价值评估仍然难倒了很多企业，快学学吧

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐