首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

关于数据仓库的特点及组成的概述

数据仓库是一个过程而不是一个项目,数据仓库是一个环境而不是一个产品。数据仓库为用户提供了用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效地把操作型数据集成到统一的环境中,以提供决策型数据访问的各种技术和模块的总称。其所做的一切都是为了让用户更快、更方便地查询所需要的信息,提供决策支持。

1、数据仓库的特点

(1)面向主题

操作型数据库中的数据组织是面向事务来处理任务的,各个业务系统之间相互分离,而数据仓库中的数据是按照一定的主题域进行组织的。

(2)集成

数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致性的全局信息。

(3)相对稳定

数据仓库中的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留。也就是说,在数据仓库中一般存在大量的查询操作,但修改和删除操作很少,通常只需要定期加载、刷新即可。

(4)反映历史变化

数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时间点(如开始应用数据仓库的时间点)到目前的各个阶段的信息,通过这些信息可以对企业的发展历程和未来趋势做出定量分析和预测。

2、数据仓库的组成

(1)数据仓库数据库

数据仓库的数据库是整个数据仓库环境的核心,是存放数据的地方,提供对数据检索的支持。相对于操作型数据库来说,其突出的特点是对海量数据的支持和快速检索。

(2)数据抽取工具

数据抽取工具把数据从各种各样的存储方式中拿出来,进行必要的转换、整理,再存放到数据仓库内。对各种不同的数据存储方式的访问能力是数据抽取工具的关键。数据转换包括:删除对决策应用没有意义的数据段、转换为统一的数据名称和定义、计算统计和衍生数据、给缺值数据赋缺省值、统一不同的数据定义方式。

(3)元数据

元数据是描述数据仓库内数据的结构和建立方法的数据。按用途可将元数据分为两类:技术元数据和商业元数据。

技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库使用的数据。技术元数据包括:数据源信息、数据转换的描述、数据仓库内对象和数据结构的定义、数据清理和数据更新使用的规则、源数据到目的数据的映射、用户访问权限、数据备份历史记录、数据导入历史记录、信息发布历史记录等。

商业元数据从商业业务的角度描述了数据仓库中的数据。商业元数据包括:业务主题的描述,以及所包含的数据、查询、报表。

元数据为访问数据仓库提供了一个信息目录,这个目录全面描述了数据仓库中都有什么数据、这些数据是怎么得到的,以及怎么访问这些数据。它是数据仓库运行和维护的中心,数据仓库服务器利用它来存储和更新数据,用户通过它来了解和访问数据。

(4)访问工具

访问工具为用户访问数据仓库提供手段。访问工具有数据查询和报表工具、应用开发工具、联机分析处理(OLAP)工具、数据挖掘工具。

(5)数据集市(Data Market)

数据集市是为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注意的是,在实施不同的数据集市时,具有相同含义的字段定义一定要相容,这样在以后实施数据仓库时才不会造成大麻烦。

在大数据时代,我们对数据仓库的理解是,它代表的是一种对数据的管理和使用的方式,是一套包括 ETL、调度、建模在内的完整的理论体系

  • 发表于:
  • 本文为 InfoQ 中文站特供稿件
  • 首发地址https://www.infoq.cn/article/b741b8df140ea07268bd33d24
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券