【商务智能】数据仓库 ( 多维数据模型 | 多维数据分析 )
上一篇博客 【商务智能】数据预处理 中讲解了数据预处理操作 , 本篇博客介绍 数据仓库 , 数据仓库与传统数据库区别 , 多维数据模型 等 ;
数据仓库特征 :
数据仓库定义 : 数据仓库 是 用于 更好地 支持 企业 / 组织 决策分析处理 , 面向主题的 , 集成的 , 不可更新的 , 随时间不断变化的 数据集合 ;
传统的数据库 又称为 操作型数据库 , 如 Oracle , MySQL 等数据库 ;
| 操作型数据 | 分析型数据 |
---|---|---|
数据粒度 | 细节的 | 综合的 |
数据时效 | 存储瞬间准确 | 过去的历史数据 |
是否只读 | 可更新 | 不可更新 |
需求可知 | 操作时实现知道需求 | 操作时事先不知道需求 |
生命周期 | 生命周期符合 SDLC | 完全不同的生命周期 |
性能要求 | 性能要求高 | 性能要求低 |
操作大小 | 同一时刻操作一个单元的数据 | 同一时刻操作一个集合的数据 |
数据大小 | 单次操作数据量小 | 单次操作数据量大 |
驱动力量 | 事务驱动 | 分析驱动 |
具体用途 | 面向应用 | 面向分析 |
应用场景 | 支持日常操作 | 支持管理需求 |
数据内容 | 业务相关数据 | 决策相关数据 |
数据模型 | 关系,层次结构 | 关系, 多维数据结构 |
数据访问 | 随机读写操作 | 只有查询操作 |
工作负载 | 事物处理量大, 每个事物涉及记录很少 | 查询小, 每次需要查询大量数据 |
事务输出 | 很少 | 很大 |
系统停机 | 灾难性的系统宕机 | 延迟决策 |
数据仓库系统体系结构 :
多维数据模型 : 从 业务分析 角度 , 对数据进行 逻辑建模 的方法 ; 具有 简单 , 易于理解 , 方便查询 ;
多维数据模型 又称为 维度数据模型 , 由 维度表 和 事实表 构成 ;
星型模式 : 中间有一个表 , 称为 事实表 , 周围有很多小表 , 这些表称为 维表 ;
星型模式 缺点 :
① 星型模式 不支持 维 的层结构 ;
② 数据冗余 :
③ 不同维层属性名相同查询问题 :
对于 维层次 复杂的维
使用多个维表 描述复杂的维 , 这样在 星型模型 的 星的角上 , 出现了分支 , 类似于雪花形状 , 因此这种变种的 星型模型 称为 “雪片模型” ;
雪片模型 优缺点 :
该模型 比 星型模式 , 雪片模型 更复杂 , 上述两个模型 , 只有一个事实表 , 但是 在事实星座模型中 , 有多个事实表 , 两个事实表 , 可能公用一些维表 ;
在线分析处理 : 一类软件技术 , 分析人员 , 管理人员 利用该技术 , 从 多种视角 , 通过 快速 , 一致 , 交互 的访问数据 , 达到 对数据洞察 ;
多维数据分析操作 :
切片 : 在 数据方体 某一维 , 选定一个 维成员 ;
切块 : 在 数据方体 某一维 , 选定 某个区间的 维成员 ;
旋转 : 改变 数据方体 维次序 ;
下钻 : 分析过程中 , 用户需要从 更多维 或者 某个维更细层次上 观察数据 , 前者 增加更多的维 , 后者 在现有维上钻取到更细一层的数据 ;
上卷 : 分析过程中 , 用户需要从 更少维 或者 某个维更粗层次上 观察数据 , 前者 减少一个维后分析 , 后者 上卷到现有的某个维的更高层次进行分析 ;
本博客中从各个角度分析了 数据仓库 与 数据块 的区别 , 简要介绍了数据仓库体系结构 , 多维数据模型的三种模型结构 , 以及在多维数据模型中的数据分析操作 ;