DataVault 2.0 学习心得(1)-数据仓库介绍

按照小编之前的预定计划,从这次更新开始分享DataVault2.0相关学习心得,本次更新内容的知识点源于《Building a Scalable Data Warehouse with Data Vault 2.0》第1章,核心关于企业数据仓库与DataVault简介。

概述

信息已成为任何组织的重要资产。 来自运营管理,中层管理人员和高级管理人员等各个层面的企业用户,都在希望通过利用信息能够做出合理的决策并为业务增加价值。 每个管理层级对信息都有不同的要求,常见的维度包括信息的准确性,完整性和一致性。 理智的经理人使用可用且可信的信息做为业务明智决策的基础

数据、信息、知识、智慧的关系如下图:

数据是特定的、客观的事实或观察,没有上下文环境它就没有含义。但它可以很容易地被捕获、传输和存储

信息是底层数据的浓缩。业务人员通过将数据组织为分析单元将其转换成信息,并赋予其相关性和目标。因此信息在接收和使用时需考虑上下文环境。在一个组织中职能部门的管理者间有着不同的信息需求,并从各自的角度来看待信息,信息用户在组织层次结构中所处的位置越高,就需要越多的概括(或浓缩)信息

知识处于信息层次结构的中高层,它是综合了上下文后形成的有价值的信息。组织中的管理者使用信息并添加他们自己的经验,判断力和智慧来创造知识,这些知识比信息更丰富,更深刻

智慧位于最高层,它将知识从底层放入一个框架,允许应用于未知和不一定直观的情境。 因为知识和智慧很难体系化并且经常是不言而喻的,所以难以在机器上捕获它们并且难以捕获

由于信息为组织内的用户提供价值,信息资产必须具有预期质量并在用户请求时随时可用

过去“分析”直接在业务或应用系统上进行,例如电子商务系统或客户关系管理(CRM)系统。 但是由于当今组织包含大量数据,从这些原始数据中提取有用和重要的信息成为分析用户的难题

组织中经常存在“数据孤岛”。 这些数据孤岛与其他数据源之间的唯一连接是业务键,通过它,分析用户可以识别两个系统中的业务对象。然而必须在某些时候对这些业务键进行不同数据源的集成,但往往超过普通商业分析师的能力

业务人员在日常工作中查询或更新特定业务对象的数据。这些业务使用“事务查询”来执行。例如发行支持票,预订机票或发送电子邮件。在这些情况下,业务人员处理属于其业务流程的业务对象

而中高级管理人员通常希望从他们负责的业务或业务部门获取信息以做出管理决策。他们经常对数据库发出“分析查询”,以便随着时间的推移汇总数据。由此,他们将原始数据(例如销售交易)转换为更有用的信息,例如销售报告

“分析”查询与“事务”查询不同,因为这个过程通常会汇总大量原始数据。原始数据通常存储于组织各应用系统的关系数据库中。在进行分析查询时须从磁盘中检索所有基础记录以执行聚合,动态读取大量记录以提供交易摘要(例如,每月销售额,每年收益等)。在同一数据库上同时拥有事务和分析查询通常会使数据库过载并影响两种查询的可用性,这是数据仓库最初被设计与实施的重要原因

数据仓库的发展历史

决策支持系统结合了各种可扩展和交互式的IT技术和工具,通过处理和分析数据来支持管理人员进行决策。分析模型数据库由ETL过程加载, 然后数据由ETL过程或业务用户查询数据时聚合。业务用户可以使用即席查询(ad-hoc query)和针对数据库的其他复杂分析来查询分析模型数据库。在许多情况下,数据是为其目的而准备的,仅包含相关信息。由于决策支持系统与源系统分离,因此与DSS的交互不会减慢操作系统的速度

数据仓库系统(DWH)是一种数据驱动的决策支持系统,例如用于检测信用卡欺诈或飞行中产品和服务推荐的实时分析。它提供非易失性,面向主题的数据,这些数据在所有目标级别上与业务用户集成和一致。在实施中注重解决以下问题:

同一对象在不同系统的指代

脏数据、无效数据、过期数据

无恰当的业务规则

数据粒度

历史数据(稳定,可审计)

企业数据仓库(EDW)不再像DWH专注于单个主题领域进行分析,而是试图表示组织内所有业务数据及其业务规则。EDW中的数据以业务用户可用的所有必需主题区域的方式呈现,它的主要特点与要求包括:

1

访问

EDW必须支持即时、按需、高可用的访问。此外对于用户来说访问必须容易理解系统所提供信息的含义,这包括正确标记数据仓库内容,以及用于分析,呈现数据仓库所提供信息的应用程序的可用性

2

多主题领域

由于企业的业务或部门对分析的数据有不同的要求,EDW必须提供多个主题领域。为了实现此目标,将主题区域所需的所有原始数据进行集成,清理并加载到EDW中。 然后构建为特定主题领域开发的数据集市

3

单一版本的真相

在组织中有许多应用系统,而系统中的数据通常存在差异,这可能出于同步延迟或错误,人工输入或业务数据不同数据源。造成的结果是组织内部存在不同版本的“真相”(小编理解就是同一业务对象具备了不同数据值,却不知道以哪个为准)。因此消除数据不一致,保证单一版本的事实是EDW的重要目标

4

单一版本的事实

EDW应存储并提供对组织使命至关重要的所有原始数据

5

重要使命

由于EDW作为战略业务决策基础,其重要性使得中央数据仓库已成为至关重要的企业资产,这种“至关重要”应明确数据仓库中的数据质量。此外数据仓库不仅为业务决策提供集成的数据,它还将丰富的信息反馈给应用系统,以支持业务处理

6

可扩展

数据仓库体系结构适应具备更高数据量、异构数据处理的能力以及必须满足的越来越多的用户请求,如分布式运算(MPP)。此外EDW的迭代升级会越来越复杂

7

大数据

Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)

08

复杂

来源问题:如源系统的可用性有限、跨系统连接、错误的源数据

转换问题:如清洗、数据质量管理和数据一致性、数据类型更正和错误处理

目标问题:如缺乏数据库调优、同时加载多个目标

9

审计与合规

EDW要求能够提供有关系统中存储数据的来源和抽取时间的信息。为了支持EDW的可审计性,需向数据添加元信息以便跟踪

10

成本

EDW的实施要求尽可能降低成本,因为IT一般被管理层视为成本因素。影响成本的因素包括:存储成本上升、低质量、糟糕的实施计划以及业务需求快速变化

11

其它

敏捷开发理论

查询,分析和呈现信息的工具

应对团队成员自然波动的能力

DataVault2.0

Data Vault 2.0(以下简称DV2)是一个商业智能系统,所谓Data Vault其真实的名称应为“公共基础性仓库架构”,该系统包含了与数据仓库设计、实施和管理的相关业务。在Data Vault 1.0时期其高度关注数据建模的部分,2.0版本在原有架构基础上进行了广泛扩展,增加了许多在数据仓库和商业智能方面成功的必要组件,具体包括:

DV2建模:对模型性能和可扩展性的更改

DV2方法:遵循Scrum和敏捷最佳实践

DV2架构:包括NoSQL系统和大数据系统

DV2实现:基于模式、自动化生成CMMI级别5

这些组件在EDW项目的整体成功中起着关键的作用。这些组件结合了从CMMI(能力成熟度模型集成)、六西格玛(6Sigma)、TQM(全面质量管理)和PMP(项目管理专业)等业界知名的和经过时间考验的最佳实践

DV2较1.0版本允许数据模型与NoSQL和大数据系统无缝交互

DV2方法论要求集中2到3周的冲刺周期对可迭代的数据仓库任务进行修改和优化

DV2架构兼容NoSQL、实时反馈以及用于非结构化数据处理和大型数据集成的大数据系统

DV2实施论关注自动化和以节省时间、减少错误以及快速提高数据仓库团队生产率的创建模式

两种数据仓库架构

典型的两层架构(Kimball)

典型的三层架构(Inmon)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181024G09RNN00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券