首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

维度模型数据仓库(一) —— 概述

最近看了三本关于数据仓库的书,很有收获,也很受启发。这三本书分别是《数据仓库工具箱(第三版)》、《Dimensional Data Warehousing with MySQL: A Tutorial》和《Pentaho Kettle解决方案》。在仔细研读了这三本书之后,感觉就像是一本书的三个层次。Ralph Kimball的经典著作数据仓库工具箱阐述的是维度建模方法论和按不同行业建模的示例。Dimensional Data Warehousing with MySQL在维度模型的基础上,用MySQL基本的SQL语句实现了各种常见场景下的ETL。而Kettle则是完全以Ralph Kimball提出的34个ETL子系统为理论基础开发出来的工具,以提供GUI的方式实现ETL。三本书的作者都是各自领域的杰出人物,是当之无愧的大神,内容的质量自不必说。但是也有些美中不足,比如工具箱这本书翻译的佶屈聱牙,让人颇为费解。Dimensional Data Warehousing with MySQL中有些错误,可能是印刷原因吧(此书没有中文版),有些按书中代码执行得不到想要的结果。倒是Kettle这本书,译者也是长期从事ETL开发的专业人员,不但翻译的通俗易懂,还适当添加了译者注,指出书中的一些过时的说法,至少对我来说受益匪浅。         有了以上的这些体会,我自然而然地产生一种想法:把几本书中所讲内容用一个完整的示例系统地实验一遍,使用SQL和Kettle两种方式来实现。一来对维度建模方法加深一下印象,二来也是对前段学习的一个总结,三是作为以后做数据仓库相关工作的不时之需。这是第一阶段要做的事情,第二阶段准备用Data Vault模型再做一遍,研究一下这种较新的建模方法。 内容组织: (一)维度模型基础 (二)准备数据仓库模拟环境 (三)初始装载 (四)定期装载 (五)进阶技术 1. 增加列 2. 按需装载 3. 维度子集 4. 角色扮演维度 5. 快照 6. 维度层次 7. 多路径和参差不齐的层次 8. 退化维度 9. 杂项维度 10. 多重星型模式 11. 间接数据源 12. 无事实的事实表 13. 迟到的事实 14. 维度合并 15. 累积的度量 16. 分段维度

02

各种开源数据库同步工具汇总

Oracle GoldenGate 是一款实时访问、基于日志变化捕捉数据,并且在异构平台之间迚行数据传输的产品。GoldenGate TDM是一种基于软件的数据复制方式,它从数据库的日志解析数据的变化(数据量只有日志的四分之一左右)。GoldenGate TDM将数据变化转化为自己的格式,直接通过TCP/IP网络传输,无需依赖于数据库自身的传递方式,而且可以通过高达10:1的压缩率对数据迚行压缩,可以大大降低带宽需求。在目标端,GoldenGate TDM可以通过交易重组,分批加载等技术手段大大加快数据投递的速度和效率,降低目标系统的资源占用,可以在亚秒级实现大量数据的复制,并且目标端数据库是活动的。

02
领券