首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【Day15,软考倒计时42天】陪你读懂《信息系统项目管理师教程第4版》-2.1.3 数据仓库

4.数据仓库

传统的数据库系统中缺乏决策分析所需的大量历史数据信息,因为传统的数据库一般只保留当前或近期的数据信息。为了满足中高层管理人员预测、决策分析的需要,在传统数据库的基础上产生了能够满足预测、决策分析需要的数据环境--数据仓库。数据仓库相关的基础概念包括:

·清洗/转换/加载(Extract/Transformation/Load, ETL):用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

·元数据:关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。典型的元数据包括:数据仓库表的结构、数据仓库表的属性、数据仓库的源数据(记录系统)、从记录系统到数据仓库的映射、数据模型的规格说明、抽取日志和访问数据的公用例行程序等。

·粒度:数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。

·分割:结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。

·数据集市:小型的,面向部门或工作组级的数据仓库。

·操作数据存储(Operation Data Store, ODS):能支持组织日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。它具有四个基本特点:面向主题的、集成的、可变的、当前或接近当前的。

·数据模型:逻辑数据结构,包括由数据库管理系统为有效进行数据库处理提供的操作和约束;用于表示数据的系统。

·人工关系:在决策支持系统环境中用于表示参照完整性的一种设计技术。

数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用于支持管理决策。常见的数据仓库的体系结构如图2-2所示

(1)数据源。它是数据仓库系统的基础,是整个系统的数据源泉。通常包括组织内部信息和外部信息。内部信息包括存放于关系型数据库管理系统中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等。

(2)数据的存储与管理。它是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为组织级数据仓库和部门级数据仓库(通常称为数据集市)。

(3)联机分析处理(On-Line Analytic Processing, OLAP)服务器。OLAP对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:基于关系数据库的OLAP(Relational OLAP, ROLAP)、基于多维数据组织的OLAP(Multidimensional OLAP, MOLAP)和基于混合数据组织的OLAP(Hybrid OLAP,HOLAP)。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数

据均存放于多维数据库中;HOLAP基本数据存放于关系数据库管理系统(Relational Database Management System, RDBMS)之中,聚合数据存放于多维数据库中。

(4)前端工具。前端工具主要包括各种查询工具、报表工具、分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O5Uzl2xH3qUyVyMTIfLW-fZA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券