1.4.BI基础术语知识(上)

这一节介绍的相关概念在后面的演示教学中会被多次提及。请不了解它们的读者朋友稍微花一点时间认真阅读并理解其含义,为以后的实践篇夯实基础。术语介绍分为四个子集:数据库概念、数据表关系、数据库浏览、BI工具。

数据库概念

联机事务处理OLTP 和联机分析处理OLAP:

OLTP(On-Line Transaction Processing),联机事务处理,其基本特征是响应迅速。在OLTP中,用户数据可以立即由前台传送到计算中心进行处理,并在很短的时间内给出处理结果。这种对用户操作能快速响应的数据处理方式,在生活中的运用非常普遍。举个例子,彼得于2018年10月在万佳超市买了一箱珠江啤酒,这笔交易的记录马上就从POS机传回超市的后台系统。超市记录增加了1箱珠江啤酒的销售额,对应啤酒库存相应减少了1箱,信息也同时被传递到供应链系统中,影响万佳超市下一次啤酒采购的发生。这一系列活动就是OLTP机制。

OLAP (On-line analytic Processing),联机分析处理。企业需要从OLTP产生的海量业务数据中提取出对企业决策分析有用的信息加以分析利用。直接在操作型数据库上建立决策支持系统是不合适的,数据仓库技术因此发展了起来的。数据仓库与OLAP是互补的,现代OLAP系统一般以数据仓库作为基础。具体来说,就是从数据仓库中抽取详细数据的一个子集,经过必要的聚集,存储到OLAP存储器中供前端分析工具读取。Power BI/Tableau 属于OLAP机制。

数据仓库(Data Warehouse)

数据仓库的主要功能是分析整理数据。在企业ERP(企业资源计划)系统中,联机事务处理(OLTP)将产生大量数据资料。这些资料被读取到数据仓库中,根据不同的分析方法(如联机分析处理、数据挖掘)的要求,进行系统地清洗、归类,从而获得最终数据以搭建商业智能模型。

注意:数据仓库中的数据资料通常是原始数据,有极强的参考意义和很长的使用寿命。因此,操作者很少对数据进行修改或删除。

图1.4.1SAP数据仓库架构图

ETL - (extract)、交互转换(transform)、加载(load)

ETL是数据仓库中重要的一环,可以被理解为数据准备或数据清洗。在经过数据抽取和清理,在原有数据仓库的基础上,使用ETL对数据进行系统加工、汇总和整理,使数据最终按照预先定义好的数据仓库模型进行准备。“Garbage In, Garbgeout(读取垃圾数据,产出垃圾数据)”精辟地阐述了此环节的重要性。

数据集市(Data Mart)

数据集市就是企业级数据仓库的一个子集,它主要面向部门级业务,或者某种特定的职能,例如销售。数据集市解决了灵活性与工具性能之间的矛盾,可以被视为一种小型的部门或工作组级别的数据仓库。在数据集市中存储了为特定用户预先计算好的数据,既能满足用户对性能的需求,也不影响数据的读取和调用。使用数据集市可以在一定程度上缓解数据仓库的访问压力。例如,当销售部门需要查询分析数据时,可以单独使用数据仓库抽取到上一级的销售数据子集

数据集(Data Set)

数据集是数据之间的集合,其结构类似于关系数据库——由公开表、行和列的分层对象模型构成。另外,它还包含了为数据集定义的约束和关系。Power BI/Tableau通过连接数据源读取数据集。

数据库三范式(DatabaseNormalization)

设计时,IT人员需遵从不同的规范要求,设计出合理的关系型数据库。这些不同的规范要求被称为范式,各种范式呈递次规范,越高的范式数据库冗余越小。

第一范式(1NF):在关系模型中,所有的域都应该是原子性的,即数据库中表的每一列都是不可分割的原子数据项。举个例子,名为“城市省份”的字段是一个可分割的数据项,包含该字段的数据表就不是第一范式。只有将该字段拆分成“城市”字段和“省份”字段后,原数据表才满足第一范式的要求。

第二范式(2NF):在关系模型中,要求实体的属性完全依赖于主关键字,不能仅依赖主关键字一部分的属性。第二范式构建在第一范式的基础上,各第二范式表之间的关系通过关键字联结。例如,在第二范式中,满足第一范式的所有“客户”相关的字段需移到新创建的“客户表”中,客户表与销售表以客户ID联结。换言之,一张表只放一种类别的信息。

第三范式(3NF):满足第二范式的前提下,非主键列必须直接依赖于主键。例如,数据表中不能存在非主键类地理城市依赖于非主键列客户,而客户列依赖于主键的情况。因此客户信息中的城市、省份、国家等地理信息会被分离出来成为“地理表”。客户表与地理表中通过地理ID关联。后文案例使用的数据库都属于第三范式。

满足范式要求的数据库设计是结构清晰的,同时可避免数据冗余和操作异常。但这并不意味着不符合范式要求的设计一定是错误的。当数据库表中存在1:1或1:N这种较特殊关系的情况下,表间合并导致的不符合范式要求的数据表反而是合理的。例如,地理表不需要再拆分成城市表,省份表,国家表。

Ø数据立方(DataCube)

数据立方是一种用于数据分析与索引的技术架构。运用数据立方可以对元数据进行任意多关键字的实时索引,能大大加快数据的查询和检索效率。

图1.4.2数据立方体又称数据魔方

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181012G1W1Z500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券