首页
学习
活动
专区
圈层
工具
发布

基于Hadoop生态圈的数据仓库实践 —— 目录

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://cloud.tencent.com/developer/article/1433228

代码语言:txt
复制
         第一部分:概述

一、什么是数据仓库

  1. 操作型系统和分析型系统
  2. ETL
  3. 数据需求
  4. 多维数据模型基础 二、在Hadoop上实现数据仓库
  5. 大数据的定义
  6. 为什么需要分布式计算
  7. Hadoop基本组件
  8. Hadoop生态圈的其它组件
  9. Hadoop生态圈的分布式计算思想
  10. 与传统数据仓库架构对应的Hadoop生态圈工具

第二部分:环境搭建

一、Hadoop版本选型

二、安装Hadoop及其所需的服务

三、建立数据仓库示例模型

  1. ERD
  2. 选择文件格式
  3. 建立数据库、表和视图

第三部分:ETL

一、使用Sqoop抽取数据

  1. Sqoop简介
  2. CDH 5.7.0中的Sqoop
  3. 使用Sqoop抽取数据 二、使用Hive转换、装载数据
  4. Hive简介
  5. 初始装载
  6. 定期装载 三、使用Oozie定期自动执行ETL
  7. Oozie简介
  8. 建立定期装载工作流
  9. 建立coordinator作业定期自动执行工作流

第四部分:进阶技术

一、增加列

二、按需装载

三、维度子集

四、角色扮演维度

五、快照

六、维度层次

七、递归

八、多路径和参差不齐的层次

九、退化维度

十、杂项维度

十一、多重星型模式

十二、间接数据源

十三、无事实的事实表

十四、迟到的事实

十五、维度合并

十六、累积的度量

十七、分段维度

第五部分:OLAP与数据可视化

一、OLAP与Impala简介

二、Hive、SparkSQL、Impala比较

三、Impala OLAP实例

四、数据可视化与Hue简介

五、Hue、Zeppelin比较

六、Hue数据可视化实例

下一篇
举报
领券