尽管数据湖有着悠久的历史,但是数据价值的评估仍然困扰着许多企业。快速学习

利用数据分析深入了解业务价值,EDW是业内公认的技术解决方案。

比尔·英曼·[是数据仓库之父,也是数据仓库概念的创始人,他的理论基于关键词:面向主题、集成、自上而下等等。他的思想和见解赢得了所有主要计算机协会、许多工业会议和技术研讨会的高度尊重。他写了650多篇文章,其中大部分发表在世界上最著名的IT出版物上。

1。数据仓库是面向主题的;操作数据库的数据组织面向事务处理任务,而数据仓库中的数据是根据某个主题领域组织的。主题指的是用户在使用数据仓库做出决策时关心的关键方面。一个主题通常与多个操作信息系统相关。

2。数据仓库是集成的。数据仓库中的数据来自分散的操作数据。在进入数据仓库之前,所需数据从原始数据中提取、处理和集成、统一和集成。

3 .数据仓库中的数据是在提取和清理原始分散的数据库数据的基础上,通过系统的处理、汇总和排序获得的。必须消除源数据中的不一致,以确保数据仓库中的信息是关于整个企业的一致全局信息。

...... Ah

因此,自从Bill in Mon于1990年提出数据仓库的概念以来,数据仓库已经从早期的探索走向了实用阶段,并进入了一个快速发展的时期。在此期间,全球经济的快速发展大大增加了企业对信息的需求,这是数据仓库长期稳定发展的根本原因。

此外,移动互联网和大数据的蓬勃发展也催生了企业对数据湖建设的需求。

数据湖的概念于2011年提出。原始数据湖是数据仓库的补充,它似乎解决了数据仓库的开发周期长、开发和维护成本高以及详细数据丢失的问题。大多数数据湖与传统的基于RDBMS的数据仓库相关。自2011年左右数据湖概念出现以来,许多数据仓库逐渐迁移到基于Hadoop的技术堆栈,除了结构化数据,半结构化和非结构化数据也逐渐存储在数据仓库中并提供这种服务。这样的数据仓库已经具有数据湖的一些功能。

参考文献:

数据湖或数据中心的概念最初是由大数据供应商提出的。从表面上看,数据承载在廉价的HDFS存储硬件上,可以向外扩展。但是,数据量越大,需要的存储类型就越多。最终,所有企业数据都可以被视为大数据,但并非所有企业数据都适合存储在廉价的HDFS集群上。数据湖价值的一部分是汇集不同类型的数据,另一部分是在没有预定义模型的情况下分析数据。今天的大数据架构是可扩展的,可以为用户提供越来越多的实时分析。

根据上述时代的变化,从EDW到Data Lake实际上是一个巨大的转折点和跳跃。然而,这一飞跃也非常聪明。我们可以看到,数据湖仍然是一个相对年轻的概念,许多技术和能力支持是新领域的新挑战。因此,基本上有必要从头学习,甚至与EDW的成熟程度进行比较或巧妙结合,以充分发挥这两个领域各自的优势。

因此,有人问——如何考虑混合匹配架构( EDW +数据湖模式)下每个平台的关键指标

这是一个非常好的问题,什么样的平台承载什么样的容量,这主要取决于业务,从业务到技术,甚至最终影响到各自的数据流。

在EDW域中:

如何通过优化不断提高SQL性能如何整合汇总数据以支持核心业务系统是否有能力将并发查询和高级分析功能与第三方工具集成,应用程序组件是否成熟,如何横向扩展混合/动态负载支持系统灾难恢复方法,以及如何有效支持…Data Lake domain :

如何访问多个系统的不同数据源,是否保留和归档大量历史数据,是否具有低存储成本,如何支持高老化的业务数据,如何连续加载系统,是否具有数据管理和安全功能,以及机器学习/算法库的成熟度...

我想我们可以参考Gartner的文章“LDW解决方案路径及其三个流”。打包解决方案时,以下三种能力通常是并行执行路径,整个过程可以通过连续迭代达到系统的能力扩展。

流1 (数据仓库流) :

此流程属于平台功能。构建高性能数据仓库不仅承载数据模型、自动化测试和报告应用程序,还为并发混合负载提供分析支持。数据仓库是数据应用和开发的出口,主要反映其商业价值。因此,数据仓库是评估数据价值的“手段”。

流2 (敏感开发和自助服务流) :

该流归因于使用能力。敏感架构促进自助协作,并为最终用户提供敏感的开发和自助能力。敏捷就像一个数据处理工厂。它依赖底层湖泊的基本数据资源,并为上层DW提供能力输出。因此,敏捷是评估数据价值的“载体”。

流3 (数据湖流) :

此流程属于平台功能。通过构建超大规模非结构化处理系统来支持企业ETL和数据沙箱;湖泊是大数据资源的处理入口,主要反映其数据承载能力。因此,单靠湖泊很难评估数据的价值。

在这里,我想你也可以看到,即使数据湖更常见,它仍然需要上层业务的指导。虽然业务实现依赖于EDW,但是中间处理依赖于开发和服务。关键是你的敏捷能力。以下是体系结构创建、自助工作环境、数据探索和集成,以及所有面向用户的敏捷部署方案。

数据的价值评估不仅取决于数据访问的频率,还取决于数据架构和数据流如何影响整个流程以支持业务。因为到目前为止,人们认为低价值密度数据应该通过数据湖运行(如大数据存储、企业ETL、数据探索等)。)和高价值密度数据应该贯穿EDW (指示器、报告、客户肖像等)。),数据的价值评估不能与中间轴承和处理环节分开。

敏捷也暴露了另一个问题:他依赖于人、设计师、开发人员、操作和维护人员等。未来十年的大数据取决于人,人力成本是核心生产力。

对世界谈话节目的分析——不小心在早上7 : 00给你带来了精彩的一页。

感谢阅读,感谢共鸣。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181026A0XDAQ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券