前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数仓一般性总结

数仓一般性总结

作者头像
章鱼carl
发布2022-05-16 14:49:44
4350
发布2022-05-16 14:49:44
举报
文章被收录于专栏:章鱼carl的专栏章鱼carl的专栏

本文的思维导图对数仓的基本知识进行总结。

1. 传统关系型数据库的建模理论

(1) 数据冗余

数据冗余利好查询分析效率,利空数据一致性。

数据越冗余越难保证数据一致性,分布式存储就是这样,但是维度退化到事实表后相当于预聚合了,所以查询分析效率高。

RDB偏向减少数据冗余,提升数据一致性。DW偏向适当冗余数据,提升查询分析效率

(2) 三范式

字段不可分、无部分依赖、无传递依赖,目的在于尽可能降低数据冗余,有利于数据一致性。

(3) ER实体关系模型

是一种逻辑模型设计,基于三范式。将事物抽象为 实体、属性、关系。

2. 数与维度建模

(1) 为什么传统关系型数据库不能适应数仓这一分析场景

RDB很难将数据转换成企业真正需要的决策信息:数据孤岛、缺历史数据、非主题角度。

(2) 数仓概念中蕴含的特性

面向主题、集成的、相对稳定、反应历史变化

(3) 数仓的发展历程

比尔•恩门(Bill Inmon)主张自上而下建设DW,DW符合第三范式。

拉尔夫•金博尔(Ralph Kimball)主张自下而上建设DW,认为数据仓库是企业内所有数据集市的集合,提出维度建模。

(4) 范式化建模和维度建模的比较

ER建模:面向应用,三范式,以消除数据冗余为目标的设计技术

维度建模:面向分析,反范式,为了提高查询性能可以增加数据冗余

(5) 在数仓中各种主要的表及概念

事实表 fact、维度表 dim

(6) 数仓建模三种类型

星型、雪花型、星座型

3. 数仓分层

(1) 数仓分层的优点

清晰的数据结构、减少重复开发、统一数据出口、简化问题

(2) 数仓一般分层架构及各层职责

ODS、DW、DM

DW:DWD、DWM、DWS

4. 数据库与数仓的区别

数据范围、数据变化、应用场景、处理数据量、设计理论、建模方式

上图

图片也可以从https://github.com/yanchenyun/wechat-docs下载。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-05-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 章鱼沉思录 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档