首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

维度模型数据仓库(一) —— 概述

最近看了三本关于数据仓库的书,很有收获,也很受启发。这三本书分别是《数据仓库工具箱(第三版)》、《Dimensional Data Warehousing with MySQL: A Tutorial》和《Pentaho Kettle解决方案》。在仔细研读了这三本书之后,感觉就像是一本书的三个层次。Ralph Kimball的经典著作数据仓库工具箱阐述的是维度建模方法论和按不同行业建模的示例。Dimensional Data Warehousing with MySQL在维度模型的基础上,用MySQL基本的SQL语句实现了各种常见场景下的ETL。而Kettle则是完全以Ralph Kimball提出的34个ETL子系统为理论基础开发出来的工具,以提供GUI的方式实现ETL。三本书的作者都是各自领域的杰出人物,是当之无愧的大神,内容的质量自不必说。但是也有些美中不足,比如工具箱这本书翻译的佶屈聱牙,让人颇为费解。Dimensional Data Warehousing with MySQL中有些错误,可能是印刷原因吧(此书没有中文版),有些按书中代码执行得不到想要的结果。倒是Kettle这本书,译者也是长期从事ETL开发的专业人员,不但翻译的通俗易懂,还适当添加了译者注,指出书中的一些过时的说法,至少对我来说受益匪浅。         有了以上的这些体会,我自然而然地产生一种想法:把几本书中所讲内容用一个完整的示例系统地实验一遍,使用SQL和Kettle两种方式来实现。一来对维度建模方法加深一下印象,二来也是对前段学习的一个总结,三是作为以后做数据仓库相关工作的不时之需。这是第一阶段要做的事情,第二阶段准备用Data Vault模型再做一遍,研究一下这种较新的建模方法。 内容组织: (一)维度模型基础 (二)准备数据仓库模拟环境 (三)初始装载 (四)定期装载 (五)进阶技术 1. 增加列 2. 按需装载 3. 维度子集 4. 角色扮演维度 5. 快照 6. 维度层次 7. 多路径和参差不齐的层次 8. 退化维度 9. 杂项维度 10. 多重星型模式 11. 间接数据源 12. 无事实的事实表 13. 迟到的事实 14. 维度合并 15. 累积的度量 16. 分段维度

02

闲聊 modern data stack

2021 年一个有趣的新变化就是:Building the modern stack with open-source data solutions,换成比较容易理解的话,就是基于开源软件构建自己的数据处理流程。如果是在国内玩大数据的人,可能对此还有些不太理解(比如我),现在各家互联网公司基于 Hadoop 生态圈等一系列开源组件构建的大数据平台解决方案早就已经成熟,那modern data stack价值在哪呢?通过对What I Learned From The Open Source Data Stack Conference 2021的阅读,我发现这是为了解决传统企业的数字化转型问题的,让这些企业也能使用上方便高效的处理工具洞察数据,而不用局限于某一家提供闭源的商业解决方案的公司。用文中的话来说,就是通过开源软件,企业可以自己掌控数据,保证用户数据隐私安全,而不用担心数据被第三方公司利用。

02

用户画像 | 标签数据存储之Hive真实应用

小伙伴们大家好呀,趁着年假的几天时间,我写了一篇 Elacticsearch 从0到1的“长篇大作”,现在还在排版,相信很快就会与大家见面了!关于系统学习用户画像,之前已经分享过2篇文章了,分别是《超硬核 | 一文带你入门用户画像》和《用户画像 | 开发性能调优》,收到的读者反馈还不错!本期文章,我借《用户画像方法论》一书,为大家分享在用户画像系统搭建的过程中,数据存储技术基于不同场景的使用。考虑到 篇幅的文章,我会用4篇文章分别介绍使用 Hive、MySQL、HBase、Elasticsearch 存储画像相关数据的应用场景及对应的解决方案。本期介绍的是 Hive,如果对您有所帮助,记得三连支持一下!

02
领券