前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )

【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )

作者头像
韩曙亮
发布2023-03-28 16:34:16
6280
发布2023-03-28 16:34:16
举报
文章被收录于专栏:韩曙亮的移动开发专栏

文章目录

一、数据仓库中的 数据组织级别


数据仓库中的数据组织 级别 : 下面 细节程度 由低到高 逐一解析 ;

  • 早期细节级别数据 : 之前的一段时间的历史数据 ;
  • 当前细节级别数据 : 最近阶段的历史数据 ;
  • 轻度综合级别数据 : 以 天 , 星期 , 月 , 为时间单位综合数据 ;
  • 高度综合级别数据 : 以 季度 , 年 , 为时间单位综合数据 ;

引入 “力度” 概念 : 上述介绍的 数据的不同的综合级别 , 称为力度 ;

  • 力度效果 : 力度越大 , 细节成都越低 , 综合程度越高 ;
  • 级别划分 : 数据的综合级别的划分 , 是根据力度进行划分的 ;

数据仓库中的数据组织 涉及概念 : 粒度 与 分割 , 数据仓库数据组织形式 , 数据仓库数据追加 ;

二、数据仓库中的 元数据


元数据 ( MetaData ) :

  • 概念 : 关于 “数据” 的 数据 ;
  • 数据库 -> 数据仓库 : 从 操作型环境 向 数据仓库环境 转换 , 建立的元数据 ; 包含 元数据项名 , 属性 , 属性在数据仓库中的转换 ;
  • 数据仓库 -> 前端应用 映射 : 多维数据模型 与 前端工具 之间建立的映射 , 该映射相关的数据 是 元数据 ;

三、粒度 ( 根据 数据综合程度 划分粒度 )


根据 “数据综合程度” 划分粒度 : “粒度” 是对 数据仓库 中的数据 的 综合程度高低 进行的度量 ;

  • 粒度与综合 : 粒度越小 , 数据细节程度越高 , 数据的综合程度越低 ;
  • 多粒度查询 : 数据仓库中一般查询是多粒度查询 , 不同的粒度 , 能回答不同的查询 ;

不同粒度查询举例 : 粒度大小影响数据库查询的效率 ;

  • 细节查询 : 如果要查询
A

是否在昨天下午

3

点给

B

打过电话 , 此时应该直接查询该时间点的数据 ;

  • 以 “年” 为粒度查询 : 如果要查询
A

去年通话时间 , 就需要查询以 “年” 为单位的通话数据 ;

  • 以 “十年” 为粒度查询 : 如果要预测
A

未来几年的通话时间 , 就需查询

A

所有的通话数据记录 , 然后做出预测 ;

四、粒度 ( 根据 样本采样率 划分粒度 )


根据 “采样率高低” 划分粒度 :

  • 样本数据库 : 以 一定的采样率 从 细节数据 / 轻度综合数据 中抽取出的 数据子集 , 称为样本数据库 ;
  • 样本数据库 “作用” : 使用该 数据子集 进行 模拟分析 ;
  • 抽象方式 : 随机抽取 ;

"样本数据库" 优点 :

  • 效率 : 查询分析 效率 高 ;
  • 降低数据量 : 如果源数据的数据量很大 , 抽样数据的量可以降低 ;
  • 准确度高 : 分析结果的误差很小 , 准确度高 ;
  • 主要因素 : 这种分析方式 , 有助于抓住 主要因素 , 主要矛盾 ;

两种形式的 “粒度” 举例 : “商品” 主题 ;

  • 时间段上信息综合粒度 : 销售综合表 , 采购综合表 , 是 根据 “数据综合程度” 划分的粒度 ;
  • 不同时间点的采样粒度 : 库存信息表 , 是 根据 “采样率高低” 划分的粒度 ;

五、分割


分割 : 将 完整的数据集 分散到 各自的物理单元 中去 , 以便能 分别独立处理 ;

  • 分割结果 : 数据 分割后的 数据单元 , 称为 分片 ;
  • 分割目的 : 提高效率 ;
  • 分割作用 : 分析 相关性 数据集合 , 将 具有相关性 的数据 组织到一起分析 , 提高分析效率 ;

分割标准 :

  • 方便进行如下操作 : 重构 , 索引 , 重组 , 恢复 , 监控 , 扫描 ;
  • 业务领域
  • 日期
  • 地域
  • 多个分割标准组合

"分割" 示例 : 对 保险行业数据 进行分割 ;

  • 总的数据集 :
3

年的 车险 , 寿险 , 健康险 , 财产险 , 意外险 数据 ;

  • 分割标准 : 按照 “时间” , 和 “险种” , 进行分割 ;
  • 分片详情 : 分片个数为
3 \times 5 = 15

个数据分片 ;

时间

车险

寿险

健康险

财产险

意外险

2020 2020 2020 年

分片 1 1 1

分片 2 2 2

分片 3 3 3

分片 4 4 4

分片 5 5 5

2019 2019 2019 年

分片 6 6 6

分片 7 7 7

分片 8 8 8

分片 9 9 9

分片 10 10 10

2018 2018 2018 年

分片 11 11 11

分片 12 12 12

分片 13 13 13

分片 14 14 14

分片 15 15 15

2020

年分片

1

分片

2

分片

3

分片

4

分片

5
2019

年分片

6

分片

7

分片

8

分片

9

分片

10
2018

年分片

11

分片

12

分片

13

分片

14

分片

15

数据分片使用方式 :

  • 处理单独数据分片 : 如果只分析
2019

年的车险数据 , 只需要分析 分片

6

中的数据即可 , 每个分片的数据都可以独立处理 ;

  • 合并若干数据分片 : 如果分析
2020

年的健康险 和 意外险 数据 , 那么需要 将 分片

2

和 分片

5

合并起来 , 进行分析 ;

六、数据仓库组织形式


数据仓库组织形式 :

  • 简单堆积文件
  • 轮转综合文件
  • 简化直接文件
  • 连续文件

简单堆积文件 :

  • 概念 : 将数据库中 提取加工 的数据 , 直接积累存储 ;
  • 操作 : 来一个存放一个 , 按照时间先后顺序存放 , 堆积 ;

轮转综合文件 :

  • 概念 : 将 数据的存储单位 , 分成 若干级别 , 每个级别有有限个指定的数据 ;
  • 数据形式 : 一定时间段的综合数据 , 称为 轮转记录 ;
  • 优点 : 结构简单 , 数据量比 “简单堆积文件” 少 ;
  • 缺点 : 综合数据 , 会损失数据细节 , 越久远的历史数据 , 数据细节损失的越多 ;
  • 操作 : 够一个时间段 , 就将指定长度的数据综合在一起 ; 每次综合都会损失一定的数据细节 ;
  • 示例 : 如果数据积累够 1 天 , 直接综合成一天的数据 ; 如果数据积累够 30 天 , 直接综合成一个月的数据 ; 如果数据积累够 12 个月 , 直接综合成一年的数据 , 小时的数据不超过 24 个 , 天的数据不超过 30 个 , 月的数据 不超过 12 个 ;

简化直接文件 :

  • 概念 : 按照一定时间间隔 , 对数据库采样 ;
  • 快照 : 每隔一定时间 , 做一个数据库快照 , 存储该快照 , 与 “简单堆积文件” 类似 ;
  • 示例 : 周一对数据做一个快照 , 周二在做一个快照 , 每天都做一个数据库快照 , 存储下来 ;
  • 缺点 : 浪费存储空间 ;

连续文件 : 在上述 “简化直接文件” 快照的基础之上 , 进行增量更新 , 只更新对比后的差异数据 ;

  • 概念 : 两个连续简化的直接文件 , 对比两个文件的差异 , 生成连续文件 ;
  • 连续文件 + 新的简单文件 = 新的连续文件
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-08-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章目录
  • 一、数据仓库中的 数据组织级别
  • 二、数据仓库中的 元数据
  • 三、粒度 ( 根据 数据综合程度 划分粒度 )
  • 四、粒度 ( 根据 样本采样率 划分粒度 )
  • 五、分割
  • 六、数据仓库组织形式
相关产品与服务
数据库管理
数据库管理(Database Management Center,DMC)是一个高效,安全,可靠的数据库一站式管理平台。DMC 提供可视化的库管理、实例会话管理、SQL 窗口、SQL 安全审计、SQL 变更审批、实时监控、操作审计等数据库管理能力,集成诊断优化和数据可视化分析能力,从而简化和规范数据库管理操作、降低数据库运维门槛、提升运维效率。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档