数据仓库基础理论知识分享给大家

数据仓库基础知识

数据仓库的概念

1.数据仓库是信息数据库的具体实现,用来存储源自业务数据库的共享数据。典型的数据仓库应该是一个主题数据库,支持用户从巨大的运营数据存储中发现信息,支持对业务趋势进行跟踪和相应,实现业务的预测和计划。

2.数据仓库是所有数据集市的集合。

数据仓库的特点

1.面向主题//数据以所代表的业务内容划分,而不是以应用划分

2.集成的//数据仓库中的数据采用统一的格式和编码方式

3.不同时间的//数据按照时间进行组织并且存储在不同的时间切片

4.稳定的//不允许对数据仓库数据进行更新操作,只允许加载和查询操作。

数据仓库系统

1.概念:数据仓库系统是一个信息提供平台,它从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。

2.从功能结构划分:分为至少三个部分;数据获取、数据存储、数据访问。

业务系统(数据库...)->ETL抽取、转换、加载(数据获取)->数据仓库(数据存储)->数据访问

3.数据仓库系统的显著特征

频繁的变化//随着需求变化,随着业务系统变化

面向企业中不同业务和用户//支持不同的业务、不同部门、不同用户的需求

少量大事务处理 vs 大量小事务处理//事务的数量比业务系统少,但事务涉及的数据量大

4.独立的系统//采用完全独立的主机、数据库和应用服务器

5.数据仓库系统是一个不断循环的过程:新的需求->需求/设计->构造/实施->使用/维护->新的需求

6.完整的数据仓库系统从功能角度划分应该包括五个部分:

***数据整合//面向主题的

***数据存储//独立的数据存储

***数据访问

***信息整合

***元数据管理

元数据管理是数据仓库系统的重要组成部分,利用它可以对数据仓库系统本身以及所有相关的业务流程、业务规则、业务系统进行完整的描述,还可以对这些相关联的描述进行查询和检索。元数据管理是数据仓库系统适应频繁变化的重要保证。

7.以客户为中心的业务模式

8.数据仓库系统的作用:以客户为中心的业务模式需要强大的数据仓库系统提供信息支持,在业务处理

流程中,作用体现在决策支持、客户分段和评价以及市场自动化等。

数据的生命周期(包括了四个数据生命周期"分区")

1.第一个分区是交互区。数据存入数据仓库后迅速进入交互区。随着数据的调整,数据被整合后传递到整合区。访问模式是随机访问。数据量较小。数据仓库以更新模式在交易相应时间水平下完成构建。

2. 二个分区是整合区。进入这个区的数据可以回进去近线区和归档区。访问模式是顺序、成串的。数据量较大数据在这里经过整合并完成分析处理。

3. 三个分区是近线区。近线区是整合去的延伸。它是可选择的,也就是说数据不一定需要经过这一区。但是当数据量非常大并且数据间的访问概率差别很大时,就可以利用近线区来处理。访问模式是随机访问。相当大的数据量。作为数据整合区数据的一个缓存区域。

4. 四个分区是归档区。它的数据访问概率很低,数据可以从近线区或者是整合区进入这个区。访问模式可以是顺序的、不定期的、随机访问的。数据量显著增长。存放访问概率显著下降但仍有可以被访问的数据。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180425A1SCBC00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券