文章/答案/技术大牛

发布

首页视频95_尚硅谷_数仓理论_数仓分层及好处（上）

95_尚硅谷_数仓理论_数仓分层及好处（上）

2022-12-022022-12-02 16:02:23播放33

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据电商数仓项目（含2.0、3.0版本）/尚硅谷数仓项目实战V2.0/视频/95_尚硅谷_数仓理论_数仓分层及好处（上）.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，接下来呢，我们看一下第一章数仓的分成。我们要搭建数据，数据仓库的过程当中啊，要对这个仓呢进行一个分成，那首先来解决一下啊，看看我们要分哪些层。右键。数据仓库呢，在2017年以前啊，这个数据仓库呢，不是特别的成型哈，2017年啊，一七年以前啊，那时候呢，这个数据大家这个分析一个指标，比如说让你分析一个日活呀，分析一个新增啊，啊还是分析一个今天的这个销售额等等这些指标的时候呢，他们就怎么办呢，直接把这个数据像咱们现在已经上传到A了，对吧。直接导入到里面。然后就开始分析了。然后就开始分析了哈，你说以前的时候，而且最开始的时候，咱们讲这个书上项目只讲一天啊，比如在一七年的时候只讲一天。然后呢，一七年下半年的时候，嗯，再往后一点呢，我会讲到讲到两天啊，后面讲到三天，到了一八年的时候吧，一八年的时候我们是一直那时候还维持三天，到一八年下半年，到一九年年初的时候，我们一下子讲到了六天。
01:08
呃，然后到一九年的时候，现在呢，就已经变到了这个，呃十天。十天，但是咱们新版新新在这版项舒畅项目呢，我会讲到多少天呢，15天左右。啊，有时候会增加到15天左右，而且我觉得15天还不一定够，因为后面还有一些东西还没有加进来，呃，后面老师还在全力以赴研发啊，就现在这个时间，我们又已经第三版这个收仓已经启动了将近嗯十多天的时间了，再改一版的话，至少应该达到这个十十七八天啊，十七八天这个样子哈，我们会把这个项目未来会给它拆成两半。拆成两半呢，就是前两个文档呢，我们会作为一个采集平台，你说在企业当中呢，是属于平台岗的一个存在。然后后面的这个纯的这个数仓搭建这个这块呢啊，再分出来，再分出来的话也得十多天的一个时间啊，是这样一个情况哈，所以说数仓这块呢，是越来越重，那企业呢，对这块的要求呢，也是越来越高啊，无论是这个中小型企业，它要求数仓分成，那同时呢，像这种大企业阿里啊，腾讯啊，京东啊啊，那更是更是这个按照分层去做啊。
02:13
那往下看啊，往下看。我们对这个数仓呢，一共分了五层啊，我们上一版1.0的时候也是数仓，我们分的是这个四层，之前上一版分在哪四层呢？Odsd w DD ws以及ADS，那本次这个项目当中呢，我们增加了一个DWT。DWT呢，增加层级，其实呢，是解决了你这个数据啊，比较复杂的时候啊，为了分析一些指标呢，好好去出一些指标，那这时候呢，才会增加一些成绩哈，那像阿里的内部的话，他们1.0版本，阿里云官方他们是四层。那美团的美团是五成啊，咱们这个目前还是五成，那京东多少成呢？京东是九成。嗯，那就说每个公司它这里面的层级呢，其实也不是那么特别一样，再有就是每一层级的这个命名。
03:06
每一个公司几乎都不太一样，因为这块舒仓这块呢，是属于一个江湖大论战啊，啊没有一家说独大，说我这个统一了这个相应的这个标准啊，说就第一层就叫什么ods，第二层就叫DD，没有没有这样一个说法，就包括我刚才给大家介绍这本书的时候，这个工具箱，我说过这本工具箱呢，它是一个纯理论派。他没有并没有去实操，那这样呢，就导致呢，这个各家呢，就是拿到这套理论呢，每个人对这个理解呢，都不是特别一样啊，最终呢，大家都想拿这套理论去解决自己的这个实践问题，那在实践过程当中呢，就会产生，嗯，产生出这各种各样的这个流派和分支，对吧？但是总之呢，干的这个事儿都差不多，就是做的这个事儿差不多，但是呢，一些名字啊，啊包括一些啊小的一些细节上会有略微的一些区别。那我们来看啊来看，那首先呢叫ods层，这一层呢，一般这个名称啊，都叫ods层啊，这个变化呢，不是特别大啊，基本上都叫原始数据层叫呃，Operation data store叫原始数据层，那这一层是负责干什么事儿的呢？啊，为什么都都有这一层呢。
04:16
哎，它就是数据过来之后叫存储原始数据。不做任何修改啊，叫什么数据保持原貌，不做处理，直接加载原始数据。不动，那同学也不理解了，说你这个收藏数据加载过来之后你不动。那你放着干嘛呀？哎，它起到的是一个什么呢？叫备份的作用。起到是一个备份。啊，因为在大数据这个场景里面啊，大家要记住一件事，数据呢是最重要的，磁盘是最不值钱的，也就是说宁可我多耗费点磁盘，但是我数据不能丢，因为如果你数据丢了，那这事就马大盘了，对吧，那个公司这个价值或者大数据团队这个价值就没有了。啊，无论如何你不能把数据玩丢了，那么就带来了，就是我们这个ods层，哎，我就往这一放干什么呢？往这一存储作为一个备份，你其他层你爱怎么玩怎么玩，哪怕说你在这个解析啊处理啊过程当中，咔咔算错了。
05:14
没关系是吧，为什么没关系呢？我ODI上再解分就完了。对吧，就像那个，嗯，像那个班长对吧？啊，喜欢看一些岛国的这个资料啊，岛国的视频，那他他如果看视频的过程中啊，如果这个不小心把这个视频坏掉了，那他得多伤心呢。那是怎么办呢？哎，他会把这个东西啊，提前备份好一份。备份到一台电脑上，我看的时候呢，我先把它拷贝过来。对吧，哎，拷贝到另一台电脑上，然后偷偷摸摸的一看，对吧，哎，看看，假如说在看的过程当中，这台电脑崩溃了，没关系，只有副本啊。啊，就是起到这么一个作用哈，所以说OD其实本质上来说，他什么也没干。啊，就是创建了分级表啊，压缩，然后保持数嘛，拉住了压缩大家都知道吧，因为它过来的数据就是压缩的，因为我们是ad上存储的时候就已经成了格式。
06:07
然后呢，创建分区表，分区表呢，只是为了方便一个管理。啊，每天一个文件夹嘛，一个文件夹管理起来多方便呢，对吧，那剩下的事就什么也没干了啊，比如说OD层什么事没干，那之后呢，来到了这个DWD层。DWD的叫date warehouse。啊，叫明细。那到这一层的时候哈，这个不同家公司叫法就不一样了，也就说这个接下来这个城的这个名字啊，你就不要太太在意了哈，但是呢，你只要拿出咱们这个名字的话啊，可以积压全场啊，直接这个对方应该是能够接受的啊，因为咱这里的对标的全部都是大厂。前面这个这四层呢，对标的是这个阿里啊，另一面呢，对的这个美团这块呢，不用有任何担心，咱们这个名字都是非常非常标准的，你像那个起那种萨这种名字，那就很low了啊。呃，往下这个呢，是DWD层啊，结构呢和力度呢与原始表保持一致。
07:03
啊，袁水这个力度啊，力度是什么意思呢？后面会大家说，那这里面简单提一下，什么叫力度呢，力度呢有一行。这是一个力度，那一行一条日志，那还有一周。一周这个用户干了什么什么事儿，那他的力度呢，就是按周，那还有这个一个月，一个月这个用户了什么事，你说这一个月他的销售额啊，这都是它的一个力度。那你想想，如果给的一条日志里面，存储的一条日志里面哈，存储的是这一个月这个用户这个消费了几次。那我让你统计这个用户。的一月份的某一天吧，我让你统计某一天他的销售额，或者是这个下单次数。那其实你就统计不了了，你捋一下这个逻辑啊，如果这一条日志里面记住的是这一这个用户一个月内下单的次数。那我想统计这个月当中某一天他干了什么事，他的下单次数多少？
08:03
哎，那它的力度呢，相当于就比较大，比较大呢，就算不出来更细致的内容，它只能按月去统计了。啊，那这个出力度呢和细力度呢，有各有各的好处哈，各有各的好处，先不着急，后面的话我会嗯再进一步的解释，那它这个力度，这个力度呢，与这个呃原始表呢是保持一致的，你说跟这个ODI你是什么力度，那我这块呢，就是什么力度，你是一行，我这一行你是这个按月，那我这这一行呢，就是一个月。你呢是一周，那我这边就一周啊，是这个意思啊行，然后呢，对OD层的数据呢，进行相应的清洗。那为什么要清洗呢？这个好多同学可能不太理解，那ods层过来的数据，你拿过来就直接能用吗？比如说你未来直接就能分析吗？啊不能，因为这里面有一些数据啊，各种是空的。呃，比较这个差的情况下，连你那个组件ID它都是空的，那你觉得这种数据能用吗。
09:02
对吧，还有一些核心的数据，比如说用户ID啊，用户信息没有，商品信息啊，商品ID也没有。啊，一千一还有这个交易额没有，哎，那这些呢，你要提前把它过滤掉，你不能把它放纵到后面这几层，我要踏踏实实的去分析指标的时候，你告诉我这个数据，这条数据不能用。不能用的后果是什么呢？你用什么is now啊判断啊，他直接就崩溃了，有的时候。啊，有的时候就崩溃了啊，它出现各种这种脏数据哈，所以说那这个提前要对这个数据呢进行清洗，那你们日后呢，这种岗位叫什么呢？叫ETL岗位。在大数据场景里面，这有一个专门的岗位，就专门来负责清洗数据的啊，往往是一些比较菜的菜鸟是吧？啊用它来清洗，那像ETL清洗工具这块呢，我们这个本质项目当中，你直接用circle就行了。嗯，准确来说叫海口。对吧，哎，写这个查询过滤条件呢，什么YW1RE y某一个ID，它等于空，我就不要了，直接抛弃了啊不等于空，那留下来啊，这不就是物理条件吗？或者这个Y2这个呃，这个交易额啊，什么这个交易额配。
10:13
然后呢，它得大于多少我留下来啊，小于多少给干掉。啊，这都是ETL，包括你们之前用ETL的时候还用过谁呢？二。就是hi的时候，你们写了一个ETL，这个清洗的mmr，那里面呢，是判断一个字符串的长度。啊，这不段长度是否大于什么15啊，如果大于的话，OK，那这个数据正常，如果小于的话，相当于这里面一共就获取了这个啊七八个啊七八个字段，那这个数据就不能用了，哎，那你就必须把它提前过滤掉。行，这是用MRETL，那除了这个用这个emr之外，还能用什么呢？写这里吧，嗯，ETL工具哈，也就是在企业当中你用到的ETL工具有什么呢？有have当中的这个口。
11:08
开当中的mmr，还有Spark，日后你们学的这个Spark Spark里面呢，就是Spark circle。还有。还有Python。啊，Python各类公司用的是Python，比如说用那个，尤其是做机器学习的啊，他们往往习惯的用这个Python的去处理，因为呢，他们不懂这个。呃，像这个跟Java呀，Java语言呢，还有日后我们学的这个scar语言呢，现在来说用起来呢啊，他们比较比较生疏啊，他们用的这个Python比较多，所以说会用这个啊，那还有呢，是这个开头，开头呢是属于专业的用来做这个亚洲清洗工具的。它的特点呢，是这样。呃，左侧呢，是类似这种工具，比如说放了have，放了h DS base red啊等等这些组件都往这一放，那怎么用呢？这块呢是一个控制台。
12:04
你只需要把这个主件拖过来，比如说我拖坏了一个have过来。然后他们再投一个海呢。那我就会通过这个have连到这个have上，然后清洗完，就相当于在本这个have里面从一层清洗到另一层，把数据过来，中间这块写什么呢？写色口就能够实现，那如果你这块写个have，这块放了一个是这个呃，H base。也可以。直接连上就一连线，然后配置一下写circle就能对公实现，它主要用用于给什么人用的呢？这个不懂技术开发，你说不懂你这个什么have啊，这个也不懂，你是底层是什么SPA安装啊，我都不需要，我只需要会拖拽就行了。脱带完之后一点一点。你说连接上就行了，你像我们连接MYSQL的话，不就是那四要素吗？对吧，一个URL用户名，密码加上一个驱动，那它这里面也是，而且呢是采用这种图形化页面配置的形式。
13:00
给你的配置上之后呢，中间只关心业务逻辑啊，往往呢之前啊之前呢，就是那种呃，学的特别差的同学。特别差的同学啊，他呢，呃，就可以，只要会这个开头工具，那就能找一份这个至少能找一个1万以上的一个工作哈，啊，但是呢，一般的都是那种外包。啊，外包大公司的外包，像什么之前那个平安啊华为。呃，在深圳那片啊，往往呢，就是靠这个啊，你只要写写这个业务逻辑就完事了哈，所以呢也比较简单，这是这个ETL工具有这么多啊，要知道一下。行啊，这呢是数据清洗啊，判空处理账数据，还有呢，是一些这个超过极限值范围的一个数据，比如说那个金额啊，它出现了负值。对吧，明明这个交易额呢，应该是正的，但是他来一个负的，那这种数据呢，往往都是要必须要干掉的哈。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷数仓项目实战V2.0

（296/300）

10分15秒

01_尚硅谷_课程介绍

430

2分27秒

02_尚硅谷_数仓概念_业务数据

470

3分32秒

03_尚硅谷_数仓概念_用户行为数据

430

10分43秒

04_尚硅谷_数仓概念_数仓概述

420

8分31秒

05_尚硅谷_数仓架构_项目需求

410

3分33秒

06_尚硅谷_数仓架构_技术选型考虑因素

410

9分24秒

07_尚硅谷_数仓架构_技术选型

440

9分58秒

08_尚硅谷_数仓架构_数仓架构

350

11分55秒

09_尚硅谷_数仓架构_框架版本选型

370

6分18秒

100_尚硅谷_数仓理论_函数依赖

350

7分46秒

101_尚硅谷_数仓理论_三范式

360

11分46秒

102_尚硅谷_数仓理论_关系建模和维度建模

450

4分43秒

103_尚硅谷_数仓理论_维度表

400

28分2秒

104_尚硅谷_数仓理论_事实表

380

10分46秒

105_尚硅谷_数仓建模_ODS层

290

10分22秒

106_尚硅谷_数仓建模_DWD层_选择业务过程

350

15分8秒

107_尚硅谷_数仓建模_DWD层_声明粒度

380

16分53秒

108_尚硅谷_数仓建模_DWD层_确定维度

350

11分38秒

109_尚硅谷_数仓建模_DWD层_确定事实

340

8分34秒

10_尚硅谷_数仓架构_服务器选型

350

19分5秒

110_尚硅谷_数仓建模_DWS层_DWT层_ADS层

350

6分21秒

111_尚硅谷_数仓建模_总结

370

3分43秒

112_尚硅谷_数仓搭建_ODS层_要做哪些事

350

3分22秒

113_尚硅谷_数仓搭建_ODS层_创建数据库

340

6分43秒

114_尚硅谷_数仓搭建_ODS层_启动日志处理分析

340

10分29秒

115_尚硅谷_数仓搭建_ODS层_启动日志处理实现

410

5分36秒

116_尚硅谷_数仓搭建_ODS层_事件日志处理

370

5分46秒

117_尚硅谷_数仓搭建_ODS层_单引号和双引号区别

440

11分28秒

118_尚硅谷_数仓搭建_ODS层_用户行为数据脚本编写

320

3分9秒

119_尚硅谷_数仓搭建_ODS层_脚本问题解决

270

7分56秒

11_尚硅谷_数仓架构_集群规模

370

10分14秒

120_尚硅谷_数仓搭建_ODS层_业务数据创建表

310

12分18秒

121_尚硅谷_数仓搭建_ODS层_业务数据脚本编写

320

15分3秒

122_尚硅谷_数仓搭建_DWD层_启动日志表

400

6分15秒

123_尚硅谷_数仓搭建_DWD层_启动日志表脚本

380

13分34秒

124_尚硅谷_数仓搭建_DWD层_事件日志表解析分析

410

59秒

125_尚硅谷_数仓搭建_DWD层_事件日志表建表

380

4分33秒

126_尚硅谷_数仓搭建_DWD层_自定义UDF函数分析

300

8分56秒

127_尚硅谷_数仓搭建_DWD层_自定义UDF函数_创建工程

360

15分28秒

128_尚硅谷_数仓搭建_DWD层_自定义UDF函数_代码编写

470

4分29秒

129_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_分析

330

8分26秒

12_尚硅谷_数仓架构_集群具体规划

360

16分28秒

130_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_实现（上）

370

8分31秒

131_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_实现（下）

400

10分57秒

132_尚硅谷_数仓搭建_DWD层_解析事件日志

360

9分37秒

133_尚硅谷_数仓搭建_DWD层_解析脚本

320

15分43秒

134_尚硅谷_数仓搭建_DWD层_事件日志（3月10日完成）

290

4分27秒

135_尚硅谷_数仓搭建_DWD层_事件日志脚本（3月11日完成）

330

14分1秒

136_尚硅谷_数仓搭建_DWD层_业务_商品维度（上）

350

10分39秒

137_尚硅谷_数仓搭建_DWD层_业务_商品维度（下）

320

1分46秒

138_尚硅谷_数仓搭建_DWD层_业务_优惠卷维度

350

8分59秒

139_尚硅谷_数仓搭建_DWD层_业务_活动维度

360

7分8秒

13_尚硅谷_用户行为采集_公共字段格式

260

2分7秒

140_尚硅谷_数仓搭建_DWD层_回顾

390

10分1秒

141_尚硅谷_数仓搭建_DWD层_地区维度

290

7分18秒

142_尚硅谷_数仓搭建_DWD层_时间维度

330

16分26秒

143_尚硅谷_数仓搭建_DWD层_订单明细事实表

370

11分58秒

144_尚硅谷_数仓搭建_DWD层_支付事实表

340

5分19秒

145_尚硅谷_数仓搭建_DWD层_退款事实表

380

3分58秒

146_尚硅谷_数仓搭建_DWD层_评论事实表

430

16分38秒

147_尚硅谷_数仓搭建_DWD层_加购事实表

300

3分35秒

148_尚硅谷_数仓搭建_DWD层_收藏事实表

310

29分16秒

149_尚硅谷_数仓搭建_DWD层_优惠卷事实表分析

330

8分1秒

14_尚硅谷_用户行为采集_事件字段格式

420

14分4秒

150_尚硅谷_数仓搭建_DWD层_优惠卷事实表完成

330

6分34秒

151_尚硅谷_数仓搭建_DWD层_基本函数

350

25分2秒

152_尚硅谷_数仓搭建_DWD层_订单事实表分析

320

19分23秒

153_尚硅谷_数仓搭建_DWD层_订单事实表完成

400

20分43秒

154_尚硅谷_数仓搭建_DWD层_拉链表理论

330

16分41秒

155_尚硅谷_数仓搭建_DWD层_拉链表实操

340

16分20秒

156_尚硅谷_数仓搭建_DWD层_脚本编写

410

9分34秒

157_尚硅谷_数仓搭建_DWS层_业务术语（上）

400

9分7秒

158_尚硅谷_数仓搭建_DWS层_业务术语（下）

320

13分48秒

159_尚硅谷_数仓搭建_DWS层_基本函数

360

10分9秒

15_尚硅谷_用户行为采集_事件日志（上）

380

5分41秒

160_尚硅谷_数仓搭建_DWS层_DWS_DWT_ADS介绍

300

17分43秒

161_尚硅谷_数仓搭建_DWS层_每日设备行为宽表

310

12分38秒

162_尚硅谷_数仓搭建_DWT层_设备主题_分析

310

23分17秒

163_尚硅谷_数仓搭建_DWT层_设备主题_实现

450

29分12秒

164_尚硅谷_数仓搭建_DWS层_会员行为宽表

360

28分2秒

165_尚硅谷_数仓搭建_DWT层_会员主题宽表

390

10分32秒

166_尚硅谷_数仓搭建_DWS层_商品主题宽表

330

14分33秒

167_尚硅谷_数仓搭建_DWT层_商品主题

370

10分4秒

168_尚硅谷_数仓搭建_DWS层_优惠卷及活动宽表

470

3分55秒

169_尚硅谷_数仓搭建_DWS层_每日购买行为宽表

320

10分19秒

16_尚硅谷_用户行为采集_事件日志（下）

360

29分22秒

170_尚硅谷_数仓搭建_数仓架构回顾

400

16分57秒

171_尚硅谷_数仓搭建_ADS_活跃设备数

340

1分58秒

172_尚硅谷_数仓搭建_ADS_新增设备数

330

3分4秒

173_尚硅谷_数仓搭建_ADS_沉默用户

360

18分6秒

174_尚硅谷_数仓搭建_ADS_活跃设备讲解

340

10分1秒

175_尚硅谷_数仓搭建_ADS_新增设备讲解

340

5分59秒

176_尚硅谷_数仓搭建_ADS_沉默设备讲解

270

3分44秒

177_尚硅谷_数仓搭建_ADS_本周回流设备需求分析

370

2分6秒

178_尚硅谷_数仓搭建_ADS_流失设备需求分析

430

5分42秒

179_尚硅谷_数仓搭建_ADS_留存率需求分析

260

2分42秒

17_尚硅谷_用户行为采集_启动日志

320

4分0秒

180_尚硅谷_数仓搭建_ADS_连续需求分析

430

6分50秒

181_尚硅谷_数仓搭建_ADS_dwt_sku_topic_纠错

340

100

21分59秒

182_尚硅谷_数仓搭建_ADS_本周回流用户

360

101

3分21秒

183_尚硅谷_数仓搭建_ADS_流失用户

380

102

8分40秒

184_尚硅谷_数仓搭建_ADS_留存率_思路分析

340

103

15分23秒

185_尚硅谷_数仓搭建_ADS_留存率_编码

390

104

11分52秒

186_尚硅谷_数仓搭建_ADS_连续三周活跃

280

105

2分51秒

187_尚硅谷_数仓搭建_ADS_本周回流_补充

350

106

21分9秒

188_尚硅谷_数仓搭建_ADS_最近7天连续3天_思路一

370

107

6分54秒

189_尚硅谷_数仓搭建_ADS_最近7天连续3天_思路二

340

108

14分42秒

18_尚硅谷_用户行为采集_日志生成_分析

370

109

3分33秒

190_尚硅谷_数仓搭建_ADS_会员主题信息_需求分析

350

110

3分27秒

191_尚硅谷_数仓搭建_ADS_漏斗分析_需求分析

330

111

3分9秒

192_尚硅谷_数仓搭建_ADS_商品销量TopN_需求分析

350

112

1分9秒

193_尚硅谷_数仓搭建_ADS_商品收藏TopN_需求分析

340

113

11分40秒

194_尚硅谷_数仓搭建_ADS_会员信息统计

400

114

18分56秒

195_尚硅谷_数仓搭建_ADS_漏斗分析

340

115

6分54秒

196_尚硅谷_数仓搭建_ADS_商品个数统计

410

116

7分4秒

197_尚硅谷_数仓搭建_ADS_销量_收藏_TopN

410

117

1分12秒

198_尚硅谷_数仓搭建_ADS_商品加购_需求分析

360

118

2分25秒

199_尚硅谷_数仓搭建_ADS_商品退款率_需求分析

370

119

14分4秒

19_尚硅谷_用户行为采集_日志生成_代码说明

310

120

1分43秒

200_尚硅谷_数仓搭建_ADS_商品差评率_需求分析

450

121

4分45秒

201_尚硅谷_数仓搭建_ADS_下单数目统计_需求分析

370

122

6分43秒

202_尚硅谷_数仓搭建_ADS_支付信息统计_需求分析

330

123

8分23秒

203_尚硅谷_数仓搭建_ADS_复购率_需求分析

370

124

5分24秒

204_尚硅谷_数仓搭建_ADS_画图软件

450

125

1分54秒

205_尚硅谷_数仓搭建_ADS_商品加购排行

380

126

8分8秒

206_尚硅谷_数仓搭建_ADS_商品退款率排行

390

127

3分5秒

207_尚硅谷_数仓搭建_ADS_商品差评率排行

340

128

6分2秒

208_尚硅谷_数仓搭建_ADS_下单信息统计

370

129

15分4秒

209_尚硅谷_数仓搭建_ADS_支付信息统计

370

130

7分10秒

20_尚硅谷_用户行为采集_日志生成_LogBack配置

410

131

18分48秒

210_尚硅谷_数仓搭建_ADS_复购率

390

132

9分38秒

211_尚硅谷_任务调度_Azkaban_工作流程分析

470

133

10分34秒

212_尚硅谷_任务调度_Azkaban_部署_准备

280

134

15分33秒

213_尚硅谷_任务调度_Azkaban_部署_配置

310

135

5分52秒

214_尚硅谷_任务调度_Azkaban_MySQL建库建表

420

136

14分41秒

215_尚硅谷_任务调度_Azkaban_Sqoop导出脚本

370

137

14分26秒

216_尚硅谷_任务调度_Azkaban_数据准备

350

138

10分20秒

217_尚硅谷_任务调度_Azkaban_Job文件

410

139

4分4秒

218_尚硅谷_任务调度_Azkaban_Shell脚本准备

420

140

5分54秒

219_尚硅谷_任务调度_Azkaban_定时调度

410

141

5分34秒

21_尚硅谷_用户行为采集_虚拟机克隆

410

142

4分13秒

220_尚硅谷_任务调度_Azkaban_调度结果

380

143

12分19秒

221_尚硅谷_任务调度_Azkaban_拉链表复习

380

144

7分12秒

222_尚硅谷_任务调度_Azkaban_商品主题宽表纠错

370

145

4分30秒

223_尚硅谷_任务调度_Azkaban_任务重跑问题

440

146

7分6秒

224_尚硅谷_数据可视化_Superset

400

147

6分28秒

225_尚硅谷_数据可视化_Superset_miniconda介绍

250

148

7分26秒

226_尚硅谷_数据可视化_Superset_miniconda安装

350

149

4分35秒

227_尚硅谷_数据可视化_Superset_Python环境创建

320

150

6分13秒

228_尚硅谷_数据可视化_Superset_安装

320

151

4分27秒

229_尚硅谷_数据可视化_Superset_配置

390

152

9分45秒

22_尚硅谷_用户行为采集_虚拟机配置

350

153

6分59秒

230_尚硅谷_数据可视化_Superset_启停

400

154

5分39秒

231_尚硅谷_数据可视化_Superset_对接MySQL安装依赖

330

155

5分50秒

232_尚硅谷_数据可视化_Superset_对接MySQL数据源配置

430

156

10分26秒

233_尚硅谷_数据可视化_Superset_对接MySQL配置仪表盘_图形

300

157

2分40秒

234_尚硅谷_数据可视化_Superset_对接MySQL配置仪表盘

370

158

3分50秒

235_尚硅谷_数据可视化_Superset_补充

300

159

6分54秒

236_尚硅谷_即席查询_概述

360

160

6分8秒

237_尚硅谷_即席查询_Kylin_概述

350

161

29分50秒

238_尚硅谷_即席查询_Kylin_前置知识

310

162

17分40秒

239_尚硅谷_即席查询_Kylin_架构_特点

360

163

5分59秒

23_尚硅谷_用户行为采集_JDK安装

260

164

11分19秒

240_尚硅谷_即席查询_Kylin_部署_HBase

420

165

5分26秒

241_尚硅谷_即席查询_Kylin_部署_解压

340

166

3分21秒

242_尚硅谷_即席查询_Kylin_部署_环境变量

320

167

4分41秒

243_尚硅谷_即席查询_Kylin_部署_启动准备

380

168

2分59秒

244_尚硅谷_即席查询_Kylin_部署_启动

290

169

5分56秒

245_尚硅谷_即席查询_Kylin_部署_启动错误_解决方案

350

170

17分7秒

246_尚硅谷_即席查询_Kylin_使用_定义model

380

171

14分49秒

247_尚硅谷_即席查询_Kylin_使用_定义cube

340

172

16分55秒

248_尚硅谷_即席查询_Kylin_使用_重复key问题解决

370

173

7分26秒

249_尚硅谷_即席查询_Kylin_Hadoop历史服务器问题原因

370

174

6分14秒

24_尚硅谷_用户行为采集_Hadoop安装及配置前准备

350

175

7分26秒

250_尚硅谷_即席查询_Kylin_查询

410

176

15分41秒

251_尚硅谷_即席查询_Kylin_定时调度脚本

380

177

10分37秒

252_尚硅谷_即席查询_Kylin_cube存储原理

310

178

13分33秒

253_尚硅谷_即席查询_Kylin_cube构建原理

310

179

13分53秒

254_尚硅谷_即席查询_Kylin_cube_优化_聚合组

420

180

11分52秒

255_尚硅谷_即席查询_Kylin_cube_优化_衍生维度

330

181

13分14秒

256_尚硅谷_即席查询_Kylin_cube_优化_Rowkey设计

450

182

5分32秒

257_尚硅谷_即席查询_Kylin_cube_优化_并发粒度优化

280

183

13分41秒

258_尚硅谷_即席查询_Kylin_cube_BI对接_JDBC

320

184

10分50秒

259_尚硅谷_即席查询_Kylin_cube_BI对接_Zeppelin

380

185

12分51秒

25_尚硅谷_用户行为采集_Hadoop集群配置

330

186

21分29秒

260_尚硅谷_即席查询_Presto_概念

440

187

16分38秒

261_尚硅谷_即席查询_Presto_部署_Server

340

188

2分15秒

262_尚硅谷_即席查询_Presto_启动_Server

370

189

14分26秒

263_尚硅谷_即席查询_Presto_部署_命令行客户端

370

190

7分39秒

264_尚硅谷_即席查询_Presto_部署_可视化客户端

380

191

17分52秒

265_尚硅谷_即席查询_Presto_使用注意事项

370

192

13分6秒

266_尚硅谷_即席查询_Druid_概述

370

193

14分24秒

267_尚硅谷_即席查询_Druid_对比

410

194

17分40秒

268_尚硅谷_即席查询_Druid_架构

340

195

5分8秒

269_尚硅谷_即席查询_Druid_数据结构

370

196

2分42秒

26_尚硅谷_用户行为采集_项目经验_HDFS多目录

410

197

9分17秒

270_尚硅谷_即席查询_Druid_部署

290

198

12分35秒

271_尚硅谷_即席查询_Druid_使用

370

199

5分23秒

272_尚硅谷_集群监控_Zabbix_概述

380

200

8分42秒

273_尚硅谷_集群监控_Zabbix_架构

350

201

2分15秒

274_尚硅谷_集群监控_Zabbix_部署_说明

340

202

4分18秒

275_尚硅谷_集群监控_Zabbix_部署_Server节点_准备

380

203

10分17秒

276_尚硅谷_集群监控_Zabbix_部署_Server节点_创建用户_建库建表

350

204

10分44秒

277_尚硅谷_集群监控_Zabbix_部署_Server节点_编译环境准备

360

205

3分52秒

278_尚硅谷_集群监控_Zabbix_部署_Server节点_编译及安装

340

206

3分50秒

279_尚硅谷_集群监控_Zabbix_部署_Server节点_配置

380

207

2分59秒

27_尚硅谷_用户行为采集_项目经验_节点间数据均衡

320

208

26分23秒

280_尚硅谷_集群监控_Zabbix_部署_Server节点_系统服务脚本编写

370

209

11分6秒

281_尚硅谷_集群监控_Zabbix_部署_Server节点_web部署

470

210

4分54秒

282_尚硅谷_集群监控_Zabbix_部署_Server节点_启动

390

211

7分17秒

283_尚硅谷_集群监控_Zabbix_部署_Server节点_web

390

212

8分14秒

284_尚硅谷_集群监控_Zabbix_部署_Agent_节点部署

350

213

7分54秒

285_尚硅谷_集群监控_Zabbix_使用_术语

310

214

8分16秒

286_尚硅谷_集群监控_Zabbix_使用_创建主机

340

215

14分38秒

287_尚硅谷_集群监控_Zabbix_使用_创建监控项

440

216

6分32秒

288_尚硅谷_集群监控_Zabbix_使用_创建触发器

340

217

8分56秒

289_尚硅谷_集群监控_Zabbix_使用_创建动作

310

218

9分12秒

28_尚硅谷_用户行为采集_项目经验_配置LZO压缩

400

219

15分13秒

290_尚硅谷_集群监控_Zabbix_使用_通知媒介配置

400

220

3分30秒

291_尚硅谷_集群监控_Zabbix_使用_全流程测试

290

221

14分10秒

292_尚硅谷_集群监控_Zabbix_使用_创建模板

360

222

3分52秒

293_尚硅谷_元数据管理_Atlas_课程背景

420

223

8分15秒

294_尚硅谷_元数据管理_Atlas_课程介绍

300

224

6分40秒

295_尚硅谷_元数据管理_Atlas_架构原理

380

225

13分15秒

296_尚硅谷_元数据管理_Atlas_辅助框架安装

390

226

19分33秒

297_尚硅谷_元数据管理_Atlas_登录后配置

310

227

25分9秒

298_尚硅谷_元数据管理_Atlas_配置并启动

400

228

3分3秒

299_尚硅谷_元数据管理_Atlas_执行效果

330

229

9分20秒

29_尚硅谷_用户行为采集_项目经验_LZO创建索引

320

230

1分15秒

300_尚硅谷_中午演唱会_班主任

310

231

8分19秒

30_尚硅谷_用户行为采集_项目经验_基准测试

400

232

2分46秒

31_尚硅谷_用户行为采集_项目经验_HDFS参数调优

290

233

10分34秒

32_尚硅谷_用户行为采集_项目经验_Yarn参数调优

360

234

9分41秒

33_尚硅谷_用户行为采集_Zookeeper安装

340

235

9分27秒

34_尚硅谷_用户行为采集_Zookeeper启动停止脚本

380

236

5分10秒

35_尚硅谷_用户行为采集_项目经验_登录式Shell和非登录式Shell

290

237

8分44秒

36_尚硅谷_用户行为采集_日志生成（上）

350

238

6分42秒

37_尚硅谷_用户行为采集_日志生成（下）

400

239

5分31秒

38_尚硅谷_用户行为采集_集群日志生成启动脚本

350

240

6分33秒

39_尚硅谷_用户行为采集_集群时间同步修改脚本

330

241

3分30秒

40_尚硅谷_用户行为采集_集群所有进程查看脚本

350

242

3分54秒

41_尚硅谷_用户行为采集_Flume安装

280

243

9分17秒

42_尚硅谷_用户行为采集_项目经验_Flume组成

370

244

12分11秒

43_尚硅谷_用户行为采集_Flume采集配置（上）

360

245

11分49秒

44_尚硅谷_用户行为采集_Flume采集配置（下）

400

246

2分23秒

45_尚硅谷_用户行为采集_Flume拦截器_回顾

370

247

8分21秒

46_尚硅谷_用户行为采集_Flume拦截器_单Event

400

248

3分20秒

47_尚硅谷_用户行为采集_Flume拦截器_启动日志校验

430

249

7分32秒

48_尚硅谷_用户行为采集_Flume拦截器_事件日志校验

310

250

4分22秒

49_尚硅谷_用户行为采集_Flume拦截器_多Event

300

251

8分50秒

50_尚硅谷_用户行为采集_Flume拦截器_分类型拦截器

320

252

5分55秒

51_尚硅谷_用户行为采集_Flume手动启动

420

253

7分25秒

52_尚硅谷_用户行为采集_Flume脚本启动

380

254

7分33秒

53_尚硅谷_用户行为采集_Flume脚本停止

410

255

7分1秒

54_尚硅谷_用户行为采集_Kafka安装

250

256

5分34秒

55_尚硅谷_用户行为采集_Kafka启动停止脚本

330

257

4分52秒

56_尚硅谷_用户行为采集_Flume_Kafka通道打通

350

258

6分54秒

57_尚硅谷_用户行为采集_项目经验_Kafka压力测试

420

259

3分0秒

58_尚硅谷_用户行为采集_项目经验_Kafka机器数量计算

330

260

6分35秒

59_尚硅谷_用户行为采集_消费Flume_组件选型

280

261

13分32秒

60_尚硅谷_用户行为采集_消费Flume_配置文件说明

330

262

5分24秒

61_尚硅谷_用户行为采集_消费Flume_启动脚本小文件演示

370

263

6分21秒

62_尚硅谷_用户行为采集_消费Flume_小文件解决

340

264

3分38秒

63_尚硅谷_用户行为采集_项目经验_内存优化

390

265

9分12秒

64_尚硅谷_用户行为采集_采集通道脚本

370

266

7分29秒

65_尚硅谷_用户行为采集_生成测试数据

440

267

3分8秒

66_尚硅谷_业务数据采集_简介

320

268

7分26秒

67_尚硅谷_业务数据采集_电商理论_电商业务流程

420

269

3分30秒

68_尚硅谷_业务数据采集_电商理论_Spu_Sku

340

270

6分48秒

69_尚硅谷_业务数据采集_电商理论_电商表结构

360

271

8分31秒

70_尚硅谷_业务数据采集_电商理论_电商表详解

430

272

12分47秒

71_尚硅谷_业务数据采集_MySQL安装

380

273

5分37秒

72_尚硅谷_业务数据采集_Sqoop官网说明

340

274

8分59秒

73_尚硅谷_业务数据采集_Sqoop安装

370

275

5分29秒

74_尚硅谷_业务数据采集_MySQL中初始化表

370

276

6分39秒

75_尚硅谷_业务数据采集_业务数据生成_配置文件说明

330

277

3分32秒

76_尚硅谷_业务数据采集_生成2天业务数据

390

278

14分21秒

77_尚硅谷_业务数据采集_同步策略（上）

390

279

17分25秒

78_尚硅谷_业务数据采集_同步策略（下）

330

280

4分24秒

79_尚硅谷_业务数据采集_分析表同步策略

390

281

11分35秒

80_尚硅谷_业务数据采集_脚本中前一天时间获取

380

282

16分46秒

81_尚硅谷_业务数据采集_Sqoop参数说明

330

283

6分21秒

82_尚硅谷_业务数据采集_Sqoop参数说明_回顾

340

284

9分18秒

83_尚硅谷_业务数据采集_Sqoop脚本_具体表同步策略

380

285

10分23秒

84_尚硅谷_业务数据采集_Sqoop脚本完成

340

286

2分31秒

85_尚硅谷_业务数据采集_Sqoop脚本执行

330

287

29分2秒

86_尚硅谷_业务数据采集_20200310数据导入过程

400

288

24分11秒

87_尚硅谷_业务数据采集_20200311数据导入过程

360

289

2分1秒

88_尚硅谷_业务数据采集_数据导入成功后查看

330

290

7分48秒

89_尚硅谷_业务数据采集_Hive安装

370

291

3分11秒

90_尚硅谷_业务数据采集_Tez框架原理

320

292

3分58秒

91_尚硅谷_业务数据采集_Tez解压安装

310

293

8分0秒

92_尚硅谷_业务数据采集_Tez集成Hive

390

294

6分41秒

93_尚硅谷_业务数据采集_Tez注意事项

390

295

8分57秒

94_尚硅谷_数仓理论_课程介绍

340

296

13分57秒

95_尚硅谷_数仓理论_数仓分层及好处（上）

330

297

7分54秒

96_尚硅谷_数仓理论_数仓分层及好处（下）

360

298

3分43秒

97_尚硅谷_数仓理论_数据集市与数据仓库概念

340

299

4分14秒

98_尚硅谷_数仓理论_命名规范

450

300

8分39秒

99_尚硅谷_数仓理论_范式概念

350

95_尚硅谷_数仓理论_数仓分层及好处（上）

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐