十里桃花舞丶

LV0
发表了文章

【项目实战】ADS 层复购率统计

ADS 层需要在 DWS 层的数据上计算复购率,并存储结果表。复购率可以从 DWS 层的用户购买商品明细表中进行计算。

十里桃花舞丶
发表了文章

【项目实战】架构设计&环境规划

根据企业的需求,业务数据存储在 MySQL 中,选择 Sqoop 作为 ETL 工具,HDFS 临时保存 Sqoop 抽取的数据。数据仓库部分选择主流的 Hiv...

十里桃花舞丶
发表了文章

【课后作业】ADS 层创建&数据接入

因为数据仓库已经创建完成,所以直接基于已有的 DWS 层进行计算。计算 GMV 的 ADS 层具体操作下面会具体进行讲解。

十里桃花舞丶
发表了文章

【课后作业】ADS 层数据导出

在 MySQL 节点(Node02)的 /home/warehouse/sql 目录下编写 mysql_gmv_ddl.sql,创建数据表:

十里桃花舞丶
发表了文章

【项目实战】Azkaban 自动化调度

现在整个数据仓库的流程已经打通,并且所有脚本也已经封装完成。但从业务数据库抽取数据,一般选择在夜间进行,而且数据仓库的整个处理流程是有先后关系的,所以需要使用自...

十里桃花舞丶
发表了文章

【课后作业】Azkaban 自动化调度

最后,将完成的 Shell 脚本交由 Azkaban 进行自动化调度。具体步骤讲解如下。

十里桃花舞丶
发表了文章

【项目实战】ETL 数据导入

数据已经在 MySQL 中生成,接下来就开始进行数据仓库的搭建环节。首先最重要的,也是首要的流程便是 ETL。这个阶段,因为是对结构化数据进行抽取,所以直接使用...

十里桃花舞丶
发表了文章

【项目实战】DWD 层创建&数据接入

DWD 层的作用是对 ODS 层的数据进行清洗,但因为业务数据库的数据质量很高,所以只需要去除空数据即可。

十里桃花舞丶
发表了文章

【课后作业】GMV 成交总额计算

在项目实战后,大家应该对数据仓库的整体流程有了一个较为清晰的认识。除了复购率的计算,接下来在原有数仓已经搭建成功的基础上,尝试着来完成 GMV 的计算任务,巩固...

十里桃花舞丶
发表了文章

【项目实战】ADS 层数据导出

为了业务系统进行更快速的查询,需要将 ADS 层的结果数据导出到 MySQL 中,这个过程因为涉及到数据流转,所以需要通过 ETL 工具 Sqoop 来进行。

十里桃花舞丶
发表了文章

【项目实战】DWS 层创建&数据接入

DWS 层的功能是将具有相同分析主题的 DWD 层数据,聚合成宽表模型,便于数据分析与计算。当然主题的归纳一般具有通用性,后续也可能会随着分析业务的增加而扩展。

十里桃花舞丶
发表了文章

【项目实战】ODS 层创建&数据接入

此时已经将数据从 MySQL 中导入到 HDFS 中了,接下来就需要将数据导入到数据仓库的 ODS 层中,完成原始数据的存储。

十里桃花舞丶
发表了文章

【项目实战】环境搭建

下载并安装 Virtual Box,准备并安装 3 台 CentOS 7.2 的虚拟机,主机名命名为 Node01、Node02、Node03。

十里桃花舞丶
订阅了专栏

腾讯云自媒体分享计划

3 文章3.5K 关注者
关注了用户

腾讯云自媒体分享计划

腾讯 · 产品运营 (已认证)

申请条件:至少有 20 篇或以上符合投稿要求可迁入腾讯云专栏的原创技术文章。

3 文章0 回答3.5K 关注者
发表了文章

npm安装Electron解决方案

Electron使用npm安装时,因为是国外的镜像源,所以速度会非常慢。而使用cnpm如下命令进行安装时,又会出现安装失败的问题:

十里桃花舞丶
npmElectron
发表了文章

windows自动化批处理删除文件

最近发现某软件删除某几个文件夹之后,就可以再次免费试用,但试用期结束之后需要再次重复删除。于是想到了批处理命令,大家可以创建txt文件,然后编辑命令后将文件后缀...

十里桃花舞丶
编程算法

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券