数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。
大数据系统需要数据模型方法来帮助更好地组织和存储数据,以便在性能、成本、效率和质量之间取得最佳平衡。
1、典型的数据仓库建模方法
1.1 ER模型
数据仓库之父Bill Inmon提出,从企业的高度设计一个3NF模型,用实体关系模型描述企业业务。
特点:
1)需要全面了解企业业务和数据
2)实施周期非常长
3)对建模人员的能力要求非常高
1.2 维度模型
数仓领域Ralph Kimball倡导
维度建模从分析决策的需求出发构建模型,为分析需求服务,因此它重点关注用户如何更快的完成需求分析,同时具有较好的大规模复杂查询的响应性能。典型代表是星形模型,以及在一些特殊场景下使用的雪花模型。
设计步骤:
1)选择需要进行分析决策的业务过程:单业务,事件状态,业务流程
2)选择粒度:粒度是维度的一个组合
3)识别维度:设计维度表
4)选择事实,确定分析需要的衡量指标
1.3 Data Vault模型
ER模型的衍生,设计的出发点也是为了实现数据的整合,但是不能直接用于数据分析决策。
它强调建立一个可审计的基础数据层,也就是强调数据的历史性、可追溯性和原子性,而不要求对数据进行过度的一致性处理和整合;同时它基于主题概念将企业数据进行结构化组织,并引入了更进一步的范式处理优化模型,以应对源系统变更的扩展性。
1.4 Anchor模型
对Data Vault模型做了进一步规范化处理
初衷是设计一个高度可扩展的模型,其核心思想是所有的扩展只是添加而不是修改,模型规范到6NF,基本变成了k-v结构化模型。
领取专属 10元无门槛券
私享最新 技术干货