前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据仓库的核心概念

数据仓库的核心概念

作者头像
数据仓库晨曦
发布2024-03-25 15:53:25
990
发布2024-03-25 15:53:25
举报
文章被收录于专栏:数据仓库技术数据仓库技术

今天给大家整理了数据仓库中的常见概念,数据仓库中的概念,很少是定义性的,更多的是描述性的、总结性的。这些概念常读常新,经常复习有助于加深自己的理解。以下概念总结自kimball的《数据仓库工具箱》、Bill Inmon的《数据仓库》、阿里巴巴的《大数据之路》。这三本书属于数据仓库从业者必读书目。

  1. 数据仓库:(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
  2. 主题:主题是指数据仓库中围绕企业关键业务领域或业务过程的数据集合。它代表了企业运营和决策过程中关注的核心内容。
  3. 集成:数据仓库中的数据是从多个不同的数据源传送来的,这些数据进入数据仓库,就进行转换,重新格式化,重新排列以及汇总等操作。得到的结果只要是存在于数据仓库中的数据就具有企业的单一物理映像。
  4. 相对稳定:也叫非易失。数据仓库的数据通常(但不总是)以批量的方式载入与访问,在数据仓库环境中并不进行(一般意义上的)数据更新。数据仓库中的数据在进行装载时是以静态快照的格式进行的。当产生后续变化时,一个新的快照记录就会写入数据仓库。这样,在数据仓库中就保存了数据的历史状况。
  5. 反应历史变化:也叫随时间变化、时变性。是指数据仓库中的每个数据单元只是在某一时间内是准确的。
  6. 数据模型:就是数据组织和存储的方法,它强调从业务、数据存取和使用的角度合理存储数据。
  7. ER模型:数据仓库之父Bill Inmon提出的建模方法是从全企业的高度设计一个3NF模型,用实体关系(Entity Relationship,ER)模型描述企业业务,在范式理论上符合3NF。数据仓库的3NF与OLTP系统的3NF区别在于,它是站在企业角度面向主题的抽象,而不是针对某个具体业务流程的实体对象关系抽象。
  8. 维度模型:是数据仓库领域的Ralph Kimball 大师所倡导的。从分析决策的需求构建模型,为分析需求服务,因此它重点关注用户如何快速地完成需求分析,同时具有较好的大规模复杂分析的响应性能。典型的代表是星型模型,以及在一些特殊场景下使用雪花模型。维度建模中主要包括事实表和维度表。
  9. 星型模型:星型模型是不是在关系数据库管理系统(RDBMS)之上的的多维结构。典型地,主要包含事实表,以及通过主键/外键关系与之关联的维度表。
  10. 雪花型模型: 当维度表中的层次关系是规范的时,低粒度属性作为辅助表通过属性键连接到基本维度表。这一过程包含多重维度表层次时,建立的多层次结构被称为雪花模式。
  11. 事实:是指在数据仓库中与业务过程直接相关的数据。它们通常是可量化的数值,用来表示某个业务事件的结果或量度。事实通常存储在事实表中,这些表包含了与业务过程相关的量化信息,如销售额、成本、数量、时间等。
  12. 可加事实:可加性度量可以按照与事实表关联的任意维度进行汇总。
  13. 半可加事实:半可加度量可以对某些维度进行汇总,但不能对所有维度汇总。差额是常见的半可加事实,除了时间维度外,它们可以跨所有维度进行加法操作。
  14. 不可加事实: 不可加度量,只完全不可加。例如:比率。对非可加事实,一种好的方法是,尽可能存储非可加度量的完全可加度量,并在计算出最终的非可加事实前,将这些分量汇总到结果集合中。最终计算通常发生在BI层或OLAP多维数据库中。
  15. 一致性事实:如果某些度量出现在不同的事实表中,需要注意,如果需要比较或者计算不同事实表中的事实,应保证针对事实的技术定义是相同的。如果不同的事实表定义是一致的,则这些一致性事实应该具有相同的命名,如果它们不兼容,则应该有不同的命名。
  16. 事实表:存储组织机构业务过程事件的性能度量结果。事实表中的每一行对应一个度量事件。事实表作为数据仓库维度建模的核心,紧紧围绕业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和与业务过程有关的度量。常见事实表种类:事务事实表、周期快照事实表、累积快照事实表
  17. 事务事实表:事务事实表的一行对应空间或时间上某点的度量事件。
  18. 周期快照事实表:周期快照事实表中的每行汇总了发生在某一标准周期,如某一天、某周、某月的多个度量事件。粒度是周期性的,而不是个体的事务。
  19. 累积快照事实表: 累计快照事实表的行汇总了发生在过程开始和结束之间可预测步骤内的度量事件。
  20. 维度:维度提供围绕某一业务过程事件所涉及的“谁、什么、何处、何时、为什么、如何”等背景。维度表包含BI应用所需要的用于过滤及分类事实的描述属性。
  21. 维度表:维度表存储了描述业务实体的数据,如客户信息、产品详情、地理位置、时间等。这些数据通常是文本或日期时间类型的字段。每个维度表都有一个唯一的主键(通常是表中的一个列或列的组合),用于唯一标识表中的每条记录。维度表中的记录通过主键与事实表中的记录的外键相关联。
  22. 缓慢变化维:缓慢变化维(Slowly Changing Dimension,简称SCD)是数据仓库中处理随时间变化的维度属性的一种技术。在现实世界的业务数据中,维度数据(如客户信息、产品分类、员工记录等)可能会随时间发生变化,但这种变化通常是缓慢的,不像事实数据那样频繁更新。缓慢变化维的目的是确保数据仓库能够准确地反映这些维度数据的历史变化情况,从而支持时间序列分析和历史趋势分析。
  23. 一致性维度:当不同的维度表的属性具有相同列名和领域内容时,称维度表具有一致性。
  24. 粒度:指的是数据仓库中数据单元的细节程度或综合程度的级别(数据仓库);事实表每行中数据是一个特定级别的细节数据,称为粒度(数据仓库工具箱);事实表中一条记录所表达的业务细节程度(大数据之路);
  25. 总线矩阵:总线矩阵(Bus Matrix)是一种数据仓库和数据建模中使用的设计方法,它用于组织和管理数据仓库中的维度和事实表。总线矩阵由Ralph Kimball提出。总线矩阵的核心思想是通过维度的共享来减少数据冗余,同时保持数据的一致性和可维护性。
  26. ETL:指的是数据从源系统提取(Extract)、转换(Transform)和加载(Load)到目标系统的过程。
  27. 元数据:元数据就是关于数据的数据。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据仓库技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云 BI
腾讯云 BI(Business Intelligence,BI)提供从数据源接入、数据建模到数据可视化分析全流程的BI能力,帮助经营者快速获取决策数据依据。系统采用敏捷自助式设计,使用者仅需通过简单拖拽即可完成原本复杂的报表开发过程,并支持报表的分享、推送等企业协作场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档