文章/答案/技术大牛

发布

首页视频215_尚硅谷_任务调度_Azkaban_Sqoop导出脚本

215_尚硅谷_任务调度_Azkaban_Sqoop导出脚本

2022-12-022022-12-02 16:02:23播放37

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据电商数仓项目（含2.0、3.0版本）/尚硅谷数仓项目实战V2.0/视频/215_尚硅谷_任务调度_Azkaban_Sqoop导出脚本.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那现在这个双击，嗯。嗯，把这文档打开。好，这个我得调大一点啊。啊，那这是咱们这个scoop的这个文档，呃，Scoop这个使用原理其实很简单，前面不是讲过SCO就底层就是一个map producece，我们每导一次数据就就跑1MR，那这个MR呢，其实只有map，没有reduce啊，因为它只只传输数据，也不用聚合，也不用计算，所以只只是一个map，一个map就够了啊好，那现在呢，我们来看看啊，那SCO在使用的时候呢。主要就俩功能，一个是导入数据。导入指的从哪往哪导，指的从关于数据库往海杜op生态去导，对不对，那导出指的从哪往哪导呢？导出指的是从哎海杜op生态往咱们的这个，呃，这个买S狗或者关心数据库里边去导，是这样的啊好，那现在我们来看一看这个导入呢，大家前面都会了，对不对，那我们导入的时候啊，其实我们这儿支持什么呢？支持。咱们这个数据从关型数据库往HDFS上的一个路径上导，能够这么去导，还能支持什么呢？还能支持把这个诶买词库里边的数据呢，直接导入到一张汉户表里也是可以的，还可以怎么导呢？还可以支持咱们把这个买词库当中的数据呢，导入到咱们的呃，H base的一张表里是都支持的啊，是这样的，这是我们导入的时候，咱们库它它所支持的东西导到H一个路径，导到have的一个表，导入h base的一个表都是可以的，但是我们更常用的还是把数据导到h.FS更常用一些啊，是这样的，那导出的时候呢，导出它可就不一样了，我们导出的时候大家要记住，导出只支持把HDFS上的一个路径。
01:43
里边的数据呢，导到咱们关系型数据库里边。只支持把一个路径的数据导出到咱们的HD，呃，导出到那个惯性数据库里是这样的，这要记住要记住啊，那这边那大家可能会觉得，诶，那这个文档上咱们这个标题起的是什么呀，是haveve加hfs到关于数据库啊，嗯，这个是为什么呢？是因为啊这个所谓的把haveve里边的数据导到这个关情数据库，其实也是利用的什么呀，也是利用的一个路径，我这只不过是什么呀，把have物表它所在的那个路径放在这个位置了，那这个是不是就间接的实现了把help的一个表导导到MYSQ里边来。
02:22
其实说白了，他这边还是路径，还是路径，只是路径往外导好，那我们来看导出的时候，我们这边。这个参数大致有什么？简单来看一下吧，这块比较简单啊，这三个参数应该大家都知道这是干什么用的，是不是连MYSQL数据库的呀，是吧？那下边这有一个table。大家可以猜测一下，你说这个table指的是什么？是have the table，还是my circle table？大家要注意啊，这个table指的肯定是my circleq当中的一个table，这是为啥刚才前面强调过了，我们往外导数据的时候，导出的时候只支持路径往MYSO当中导，对不对？所以说你这不可能是have的表，是不支持这些导have表的啊好，那它完之后呢，往下看下一个这一个number maps，就是map的个数，这个不用多说了，在下边呢，有一个export d。
03:11
它指的是什么呢？是就是咱们刚才说的那个导出的那个路径，就是你要把哪个路径的数据导到MYSQL里边啊，对不对，需要用export d去指定，那下边呢，有一个这样的参数，这个参数大家要注意啊，参数叫做input field termin这个它的这个参数名大家一看就知道什么呀，是这个分隔符对不对，那这个分隔符呢，大家到时候写的时候还要注意一些。注意什么呢？大家想想啊，咱们现在是需要把HDFS上，呃，需要把咱们数仓的ADS层的数据是不是要导到买SQ里边啊，对不对，那买SQL里边肯定得是结构化数据，那所以说你这得得指定什么，指定你have里边你那个数据那个表的分割符到底是什么，是杠T，那你这边呢，就要保持杠T，那也是这个位置呢，要求跟什么要求和我们AADS层你的表的那个分隔符要一致才行，要不然这边是识别不了的。
04:03
所以说这个大家要注意啊，就是这呢要跟ADS层的表保持一致，Ad表一个啥大致呢，就是这样的几个参数，好，那这个导出呢，咱们基本上就就这些就够了，那接下来呢，我们看看咱们最终这个导出脚本是怎么去写的啊，那这是这个文档关掉不要它了，看咱们现在这个文档上的导出脚本。来，大家一起往下看啊，这边呢，我们起个名字，你叫这个scomport.export.sh也行，或者一会咱们给它叫个别的名字也行啊，一会再说，那现在我们看这个脚本的内容，这个脚本的内容呢，其实跟咱们前面写的那个SCO，呃，Import那个其实是那个，呃，就是那个，不是school part就是那个，呃，My circle到HTFS就是那个school的导入脚本，就跟那个结构是很像的，那咱们现在就不再手写了，给它粘出来，然后给大家解解解释一下我这个脚本是怎么去写的啊。C。来我们一起看一下啊，大家来看，首先前面呢，声明了两个变量啊，一个是呃，Have当中你那个数据库的名字，一个是咱们my circleql当中那个数据库的名字，我们买circleql当中不是刚才刚建的吗？叫做机贸report，是不是就做报表的一样这样的一个库，那下边我看这个，我这个这个脚本是怎么去写的，它结构是什么样的呢？来先看结构啊，这是export data这样的一个公用的一个函数，跟咱们那个导入的时候是不是类似啊，那下边呢，哎，我做了一个什么呢？做了一个这个判断，咱们判断一个参数。
05:30
诶到一，那如果说这个脚本，我第一个参数我传的是什么，传的是哪个表名，那我就导哪个表。传的哪个表我就导哪个表，然后如果说我传的是哦，那OK，我就把所有表都导出去，把所有表都导出去是这样的啊，那咱们ADS层一共有几张表，一共是不是有19张表啊，19张表，但我这边没有把这19张表都写上啊，呃，要都写你就呃就照着写就行了呗，一从从头到尾一个一个写就行了，那这边我只写了三个啊，咱们就那个把那个意思呃达到就可以了，意思达到就可以了啊好，那正常你在公司里边是需要都写上的啊，有几个表你写几个表。
06:07
好，那现在呢，我们来看看这个公用函数我是怎么去写的来。首先这个里边呢，我们用这个op BT modu scoop b用这个，这是一个什么绝对路径，调用这个scoop的脚本，然后传export，这回不一样了，是export了导出，那同理，后边我要写一个connect，写一个username，写一个password，这个需要连咱们的MY，这个大家正常写就行了，这样写就行了啊，那写完之后咱们看下边，下边这个位置啊，看这。这个table，呃，前面一再强调这个table指的是什么？Table指的是my circleq当中的table my circle当中table啊，那这边呢，我们，呃，因为这是一个公用函数嘛，我要呃所有的导每张表都要用这个函数，所以这个表明呢，肯定是不一样的，所以说给它做一个参数，做一个参数啊，那大家这块要注意这块，这个DOLLAR1跟这这个DOLLAR1它一样吗？它俩不一样，这个一定一定得知道啊，那这个DOLLAR1指的是什么？指的是咱们这个函数的第一个参数。
07:04
对不对，诶，那这个W1指的是什么呢？只是咱们这个整个脚本的第一个参数，所以这块呢是不一样的，不要搞混了啊好，那下边呃，Map的个数是一，这个不用多说了，那这个导出的路径，诶这个东西你看看他他咱是怎么写的啊来。导出的路径啊，咱是不是就得找咱们那个，呃呃，咱们那个数那个数仓ADS层那个表的路径啊，对不对，ADS层表示路径在哪，在warhouse下边，在这个g Mo下边，然后ad层，那接下来后边是不是就表明啊对吧？表明就表明咱们还是用这个DOLLAR1去给它传就行了，那这时候如果说你这个脚本这么去写的话，那就要求咱们这得保证一个事，什么事呢？就是你数仓里边就是have当中ADS层的表明得和你买SQL当中的表明得是一致的才行，对不对，那这时候你才能共用这个DOLLAR1。要不然的话，你这个共应不了，所以这边要求ADS层跟MY当中表明是一样的，好，那他完之后呢，往下看，这个是咱们这个field term by，杠T，我们ADS层就是杠T，所以这块呢是没问题的，那接下来还有几个参数，这四个参数。
08:09
这是比较关键的。这是比较关键的啊，那我们来看一看这几这四个参数，这四个参数呢，我们可能有两个比较熟悉，比如说他们俩这是比较熟悉的，那这俩是干什么用的来着，咱们scoop导入的时候是不是会有一个no string和一个no ne string啊对不对？那导入的时候你指明的那个参数是什么意思，还记得吗？是不是咱们买SQL里边的空值，我导入到have当中，或者导到HTS上之后，我以什么样的形式去存储啊？对不对，那我们have表里边，诶，它默认的这个空值是谁呀？是不是杠N呢，所以说我们导入的时候需要告诉咱们这个四库吧，买斯库当中空值。到了HDFS这你需要给我存成杠N，当然这边我们需要转移，需要加一个反斜杠转移一下，好，那这是我们导入的时候，那同理咱们导出的时候也得考虑这个控值的问题，就是说。
09:00
我们have当中也是HTFS上我什么样的值，我导到my soql当中，我给你存成MYSQ的空值对不对啊，那是不是应该就是杠N，我存到MYSQ之后是空值啊，也要告诉他啊，也要告诉他，那这边呢，诶我们就给他配上就行了，一个是这个字符串类型，一个是非字符串类型，咱们都是杠N，都是杠N啊，那这边大家要注意这个参数名跟导入的时候不太一样了，那那导入的时候没有这个input的啊，那这边有一个input，包括这个分隔符是不是也前面多了一个input呀。这照他这个做就行好，但是这两个参数咱们就介绍完了，然后介绍完之后呢，我们再来看这个位置。这个位置呢，有一个什么呀，有一个update mode，还有一个update k，那这俩参数它的作用是什么呢？这俩参数它的作用是什么呢？我得给大家解释一下了，大家来看一看啊，咱们这个死库往买搜索里边导数据的时候。他其实没有那么灵活，没有那么灵活。大家可以回想一下，我们此库房从买circle往HDFS上导的时候，咱是不是比较灵活，我可以怎么样，我可以通过那个circle去去导我想要的数据。
10:07
对不对，比如说我增量或者是全量，我想怎么导就怎么导，对不对，但是咱们导出的时候，那可就没有那么灵活了，我们导出的时候只支持什么，只支持把一个路径里边的数据是不是导到MYSQL里啊。那既然是这个路径，我们这是不是写的这个表的路径，那这样一来的话会出什么问题，是不是咱们每次往每次库里边导的时候，我都是怎么导，是不是都是全量导啊，每次导都是把整张表的数据导到MYSQL当中，每次导都是这么去导。那这样一导的话，如果说我们这个数据不做任何处理，那买思当中是不是势必会出现这个数据的重复问题啊，对不对，每次都往里导，每次都往里导，那我可能前面的那个导过的数据还会再导一遍，那是不是肯定会重复，对不对？那所以我们这儿是不想不想出现这样的，不想要这样的现这这不想要这样的这个效果，我们想要的效果应该是什么样的呢？我们想要的效果应该是这样的，咱们这边是不是只能是每次把全表都导出去，我们想要效果应是这样的，对于已经这个在买搜当中存在的数据，我怎么做呢？已经存在的我给他更新。
11:09
所谓的更新呢，就是诶把这边新导的这个历史数据呢，诶给他把原来的那个历史数据给它替换掉，但其实他替换了之后，他这个结果会变嘛，其实不会变的，其实还是原来那个结果，对对不对，也就相当于什么，我已存在的数据不动，但其实它是一个更新的过程啊，就是已存在的不动，但是对于新新的数据呢，我是每天会有一条新数据产生，或者是多条，对吧，对于新数据呢，我怎么办？诶我给它插入。给它插入，那这是我们想要的效果啊，就是说已存在的更新这个不存在的呢，我给它进行进行进行insert插入对不对，那这边我们应该怎么去配置scoop才能实现这样的效果呢？通过这俩参数啊，通过这俩参数啊，这俩参数，那也就是说咱们诶把这个update mode是不是这个更新的模式啊，更新模式我们给它设成allow insert。大家要注意啊，咱们这个更新的模式呢，有这样的两种类型，一种是咱们这写的这个allow insert，还有一种呢，是什么是这个，诶update only update only，这个在咱们文档上其实写了啊往下看诶一共有这样的两个。
12:16
Update力呢，是只允许更新，不允许插入，那这样一来我们新数据是不是就插不进去啊，所以说这种方式咱们不能要，我们得要哪个要allow insert，就是说诶已存在的我就更新，未存在的呢，我就insert，我就插入，那这才是我们想要的效果，OK，那所以说update mode呢，我们在这需要给它设成allow insert，那还有一个下边这个update k是什么意思呢？Update k，这个K呢，需要我们指定一个什么东西，指定一个字段，这个字段呢，我这个字段呢，我们要求得指定一个什么呢？得指定一个主键。诶，或者说至少要是一个唯一键才行，就是唯一键才行啊，不一定是主键，但至少要是唯一键，唯一键啊，就是这个那个只能是唯一的，不能重复的这种啊，就是UNUN那种类型，好，那它的作用到底是什么呢？给大家解释一下，前面咱们讲了，如果说我配置成这种更新模式之后，它的效果是怎么样的，就是已存在的数据我更新，不存在的我给它进行插入对不对？
13:15
那咱们怎么去判断我这条数据它是否已存在了呢？他总不能说我每个字段都去比较一下吧，那这样一来效率肯定太低了，那所以说我们这这个字段这个参数的作用是什么呀？就是指定一个字段。指定一个字段或两个字段也行，指定这个字段干什么呢？来，然后呢，用这个字段，根据这个字段，根据你指定这个字段去判断我这个数据是否已存在，也就是说，如果说我这里边有条数据，那你指定那个字段，比如说是一，那我新导过来的数据里边呢，这个字段也是一，那OK，他俩一样，那就证明这条数据已存在，已存在那我就更新，那如果不存在我就插入。诶是这样的啊，那这个就是说诶指定它去判断我这个数据是否存在，那这个字段，这个字段呢，我们要求大家指定的时候呢，诶要指定为我们的这个主键，或者是一个唯一键，一个UN，大家把这个注意，把这个注意到啊好了，那这就是咱们这边这个scoop导出的这样一个配置，Update mode和update key，它的这个配置呢，我们都是这么去配啊，就是说把这个它设成这个呢，设成主键就可以了，那每个表的主件是不是都不一样啊，所以说我在这呢，这个公应函数，我给他做了一个参数，做了一个参数啊，那这个公应函数咱们就介绍完了，那接下来我去导不同的表的时候，那我是不是就需要给他传一个表名，再传一个主键就行了呀。
14:34
穿越表面越主件是这样的啊好了，那这边这个咱们就介绍完了这个脚本，好我把视频录一下。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷数仓项目实战V2.0

（136/300）

10分15秒

01_尚硅谷_课程介绍

430

2分27秒

02_尚硅谷_数仓概念_业务数据

470

3分32秒

03_尚硅谷_数仓概念_用户行为数据

430

10分43秒

04_尚硅谷_数仓概念_数仓概述

420

8分31秒

05_尚硅谷_数仓架构_项目需求

410

3分33秒

06_尚硅谷_数仓架构_技术选型考虑因素

410

9分24秒

07_尚硅谷_数仓架构_技术选型

440

9分58秒

08_尚硅谷_数仓架构_数仓架构

350

11分55秒

09_尚硅谷_数仓架构_框架版本选型

370

6分18秒

100_尚硅谷_数仓理论_函数依赖

350

7分46秒

101_尚硅谷_数仓理论_三范式

360

11分46秒

102_尚硅谷_数仓理论_关系建模和维度建模

450

4分43秒

103_尚硅谷_数仓理论_维度表

400

28分2秒

104_尚硅谷_数仓理论_事实表

380

10分46秒

105_尚硅谷_数仓建模_ODS层

290

10分22秒

106_尚硅谷_数仓建模_DWD层_选择业务过程

350

15分8秒

107_尚硅谷_数仓建模_DWD层_声明粒度

380

16分53秒

108_尚硅谷_数仓建模_DWD层_确定维度

350

11分38秒

109_尚硅谷_数仓建模_DWD层_确定事实

340

8分34秒

10_尚硅谷_数仓架构_服务器选型

350

19分5秒

110_尚硅谷_数仓建模_DWS层_DWT层_ADS层

350

6分21秒

111_尚硅谷_数仓建模_总结

370

3分43秒

112_尚硅谷_数仓搭建_ODS层_要做哪些事

350

3分22秒

113_尚硅谷_数仓搭建_ODS层_创建数据库

340

6分43秒

114_尚硅谷_数仓搭建_ODS层_启动日志处理分析

340

10分29秒

115_尚硅谷_数仓搭建_ODS层_启动日志处理实现

410

5分36秒

116_尚硅谷_数仓搭建_ODS层_事件日志处理

370

5分46秒

117_尚硅谷_数仓搭建_ODS层_单引号和双引号区别

440

11分28秒

118_尚硅谷_数仓搭建_ODS层_用户行为数据脚本编写

320

3分9秒

119_尚硅谷_数仓搭建_ODS层_脚本问题解决

270

7分56秒

11_尚硅谷_数仓架构_集群规模

370

10分14秒

120_尚硅谷_数仓搭建_ODS层_业务数据创建表

310

12分18秒

121_尚硅谷_数仓搭建_ODS层_业务数据脚本编写

320

15分3秒

122_尚硅谷_数仓搭建_DWD层_启动日志表

400

6分15秒

123_尚硅谷_数仓搭建_DWD层_启动日志表脚本

380

13分34秒

124_尚硅谷_数仓搭建_DWD层_事件日志表解析分析

410

59秒

125_尚硅谷_数仓搭建_DWD层_事件日志表建表

380

4分33秒

126_尚硅谷_数仓搭建_DWD层_自定义UDF函数分析

300

8分56秒

127_尚硅谷_数仓搭建_DWD层_自定义UDF函数_创建工程

360

15分28秒

128_尚硅谷_数仓搭建_DWD层_自定义UDF函数_代码编写

470

4分29秒

129_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_分析

330

8分26秒

12_尚硅谷_数仓架构_集群具体规划

360

16分28秒

130_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_实现（上）

370

8分31秒

131_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_实现（下）

400

10分57秒

132_尚硅谷_数仓搭建_DWD层_解析事件日志

360

9分37秒

133_尚硅谷_数仓搭建_DWD层_解析脚本

320

15分43秒

134_尚硅谷_数仓搭建_DWD层_事件日志（3月10日完成）

290

4分27秒

135_尚硅谷_数仓搭建_DWD层_事件日志脚本（3月11日完成）

330

14分1秒

136_尚硅谷_数仓搭建_DWD层_业务_商品维度（上）

350

10分39秒

137_尚硅谷_数仓搭建_DWD层_业务_商品维度（下）

320

1分46秒

138_尚硅谷_数仓搭建_DWD层_业务_优惠卷维度

350

8分59秒

139_尚硅谷_数仓搭建_DWD层_业务_活动维度

360

7分8秒

13_尚硅谷_用户行为采集_公共字段格式

260

2分7秒

140_尚硅谷_数仓搭建_DWD层_回顾

390

10分1秒

141_尚硅谷_数仓搭建_DWD层_地区维度

290

7分18秒

142_尚硅谷_数仓搭建_DWD层_时间维度

330

16分26秒

143_尚硅谷_数仓搭建_DWD层_订单明细事实表

370

11分58秒

144_尚硅谷_数仓搭建_DWD层_支付事实表

340

5分19秒

145_尚硅谷_数仓搭建_DWD层_退款事实表

380

3分58秒

146_尚硅谷_数仓搭建_DWD层_评论事实表

430

16分38秒

147_尚硅谷_数仓搭建_DWD层_加购事实表

300

3分35秒

148_尚硅谷_数仓搭建_DWD层_收藏事实表

310

29分16秒

149_尚硅谷_数仓搭建_DWD层_优惠卷事实表分析

330

8分1秒

14_尚硅谷_用户行为采集_事件字段格式

420

14分4秒

150_尚硅谷_数仓搭建_DWD层_优惠卷事实表完成

330

6分34秒

151_尚硅谷_数仓搭建_DWD层_基本函数

350

25分2秒

152_尚硅谷_数仓搭建_DWD层_订单事实表分析

320

19分23秒

153_尚硅谷_数仓搭建_DWD层_订单事实表完成

400

20分43秒

154_尚硅谷_数仓搭建_DWD层_拉链表理论

330

16分41秒

155_尚硅谷_数仓搭建_DWD层_拉链表实操

340

16分20秒

156_尚硅谷_数仓搭建_DWD层_脚本编写

410

9分34秒

157_尚硅谷_数仓搭建_DWS层_业务术语（上）

400

9分7秒

158_尚硅谷_数仓搭建_DWS层_业务术语（下）

320

13分48秒

159_尚硅谷_数仓搭建_DWS层_基本函数

360

10分9秒

15_尚硅谷_用户行为采集_事件日志（上）

380

5分41秒

160_尚硅谷_数仓搭建_DWS层_DWS_DWT_ADS介绍

300

17分43秒

161_尚硅谷_数仓搭建_DWS层_每日设备行为宽表

310

12分38秒

162_尚硅谷_数仓搭建_DWT层_设备主题_分析

310

23分17秒

163_尚硅谷_数仓搭建_DWT层_设备主题_实现

450

29分12秒

164_尚硅谷_数仓搭建_DWS层_会员行为宽表

360

28分2秒

165_尚硅谷_数仓搭建_DWT层_会员主题宽表

390

10分32秒

166_尚硅谷_数仓搭建_DWS层_商品主题宽表

330

14分33秒

167_尚硅谷_数仓搭建_DWT层_商品主题

370

10分4秒

168_尚硅谷_数仓搭建_DWS层_优惠卷及活动宽表

470

3分55秒

169_尚硅谷_数仓搭建_DWS层_每日购买行为宽表

320

10分19秒

16_尚硅谷_用户行为采集_事件日志（下）

360

29分22秒

170_尚硅谷_数仓搭建_数仓架构回顾

400

16分57秒

171_尚硅谷_数仓搭建_ADS_活跃设备数

340

1分58秒

172_尚硅谷_数仓搭建_ADS_新增设备数

330

3分4秒

173_尚硅谷_数仓搭建_ADS_沉默用户

360

18分6秒

174_尚硅谷_数仓搭建_ADS_活跃设备讲解

340

10分1秒

175_尚硅谷_数仓搭建_ADS_新增设备讲解

340

5分59秒

176_尚硅谷_数仓搭建_ADS_沉默设备讲解

270

3分44秒

177_尚硅谷_数仓搭建_ADS_本周回流设备需求分析

370

2分6秒

178_尚硅谷_数仓搭建_ADS_流失设备需求分析

430

5分42秒

179_尚硅谷_数仓搭建_ADS_留存率需求分析

260

2分42秒

17_尚硅谷_用户行为采集_启动日志

320

4分0秒

180_尚硅谷_数仓搭建_ADS_连续需求分析

430

6分50秒

181_尚硅谷_数仓搭建_ADS_dwt_sku_topic_纠错

340

100

21分59秒

182_尚硅谷_数仓搭建_ADS_本周回流用户

360

101

3分21秒

183_尚硅谷_数仓搭建_ADS_流失用户

380

102

8分40秒

184_尚硅谷_数仓搭建_ADS_留存率_思路分析

340

103

15分23秒

185_尚硅谷_数仓搭建_ADS_留存率_编码

390

104

11分52秒

186_尚硅谷_数仓搭建_ADS_连续三周活跃

280

105

2分51秒

187_尚硅谷_数仓搭建_ADS_本周回流_补充

350

106

21分9秒

188_尚硅谷_数仓搭建_ADS_最近7天连续3天_思路一

370

107

6分54秒

189_尚硅谷_数仓搭建_ADS_最近7天连续3天_思路二

340

108

14分42秒

18_尚硅谷_用户行为采集_日志生成_分析

370

109

3分33秒

190_尚硅谷_数仓搭建_ADS_会员主题信息_需求分析

350

110

3分27秒

191_尚硅谷_数仓搭建_ADS_漏斗分析_需求分析

330

111

3分9秒

192_尚硅谷_数仓搭建_ADS_商品销量TopN_需求分析

350

112

1分9秒

193_尚硅谷_数仓搭建_ADS_商品收藏TopN_需求分析

340

113

11分40秒

194_尚硅谷_数仓搭建_ADS_会员信息统计

400

114

18分56秒

195_尚硅谷_数仓搭建_ADS_漏斗分析

340

115

6分54秒

196_尚硅谷_数仓搭建_ADS_商品个数统计

410

116

7分4秒

197_尚硅谷_数仓搭建_ADS_销量_收藏_TopN

410

117

1分12秒

198_尚硅谷_数仓搭建_ADS_商品加购_需求分析

360

118

2分25秒

199_尚硅谷_数仓搭建_ADS_商品退款率_需求分析

370

119

14分4秒

19_尚硅谷_用户行为采集_日志生成_代码说明

310

120

1分43秒

200_尚硅谷_数仓搭建_ADS_商品差评率_需求分析

450

121

4分45秒

201_尚硅谷_数仓搭建_ADS_下单数目统计_需求分析

370

122

6分43秒

202_尚硅谷_数仓搭建_ADS_支付信息统计_需求分析

330

123

8分23秒

203_尚硅谷_数仓搭建_ADS_复购率_需求分析

370

124

5分24秒

204_尚硅谷_数仓搭建_ADS_画图软件

450

125

1分54秒

205_尚硅谷_数仓搭建_ADS_商品加购排行

380

126

8分8秒

206_尚硅谷_数仓搭建_ADS_商品退款率排行

390

127

3分5秒

207_尚硅谷_数仓搭建_ADS_商品差评率排行

340

128

6分2秒

208_尚硅谷_数仓搭建_ADS_下单信息统计

370

129

15分4秒

209_尚硅谷_数仓搭建_ADS_支付信息统计

370

130

7分10秒

20_尚硅谷_用户行为采集_日志生成_LogBack配置

410

131

18分48秒

210_尚硅谷_数仓搭建_ADS_复购率

390

132

9分38秒

211_尚硅谷_任务调度_Azkaban_工作流程分析

470

133

10分34秒

212_尚硅谷_任务调度_Azkaban_部署_准备

280

134

15分33秒

213_尚硅谷_任务调度_Azkaban_部署_配置

310

135

5分52秒

214_尚硅谷_任务调度_Azkaban_MySQL建库建表

420

136

14分41秒

215_尚硅谷_任务调度_Azkaban_Sqoop导出脚本

370

137

14分26秒

216_尚硅谷_任务调度_Azkaban_数据准备

350

138

10分20秒

217_尚硅谷_任务调度_Azkaban_Job文件

410

139

4分4秒

218_尚硅谷_任务调度_Azkaban_Shell脚本准备

420

140

5分54秒

219_尚硅谷_任务调度_Azkaban_定时调度

410

141

5分34秒

21_尚硅谷_用户行为采集_虚拟机克隆

410

142

4分13秒

220_尚硅谷_任务调度_Azkaban_调度结果

380

143

12分19秒

221_尚硅谷_任务调度_Azkaban_拉链表复习

380

144

7分12秒

222_尚硅谷_任务调度_Azkaban_商品主题宽表纠错

370

145

4分30秒

223_尚硅谷_任务调度_Azkaban_任务重跑问题

440

146

7分6秒

224_尚硅谷_数据可视化_Superset

400

147

6分28秒

225_尚硅谷_数据可视化_Superset_miniconda介绍

250

148

7分26秒

226_尚硅谷_数据可视化_Superset_miniconda安装

350

149

4分35秒

227_尚硅谷_数据可视化_Superset_Python环境创建

320

150

6分13秒

228_尚硅谷_数据可视化_Superset_安装

320

151

4分27秒

229_尚硅谷_数据可视化_Superset_配置

390

152

9分45秒

22_尚硅谷_用户行为采集_虚拟机配置

350

153

6分59秒

230_尚硅谷_数据可视化_Superset_启停

400

154

5分39秒

231_尚硅谷_数据可视化_Superset_对接MySQL安装依赖

330

155

5分50秒

232_尚硅谷_数据可视化_Superset_对接MySQL数据源配置

430

156

10分26秒

233_尚硅谷_数据可视化_Superset_对接MySQL配置仪表盘_图形

300

157

2分40秒

234_尚硅谷_数据可视化_Superset_对接MySQL配置仪表盘

370

158

3分50秒

235_尚硅谷_数据可视化_Superset_补充

300

159

6分54秒

236_尚硅谷_即席查询_概述

360

160

6分8秒

237_尚硅谷_即席查询_Kylin_概述

350

161

29分50秒

238_尚硅谷_即席查询_Kylin_前置知识

310

162

17分40秒

239_尚硅谷_即席查询_Kylin_架构_特点

360

163

5分59秒

23_尚硅谷_用户行为采集_JDK安装

260

164

11分19秒

240_尚硅谷_即席查询_Kylin_部署_HBase

420

165

5分26秒

241_尚硅谷_即席查询_Kylin_部署_解压

340

166

3分21秒

242_尚硅谷_即席查询_Kylin_部署_环境变量

320

167

4分41秒

243_尚硅谷_即席查询_Kylin_部署_启动准备

380

168

2分59秒

244_尚硅谷_即席查询_Kylin_部署_启动

290

169

5分56秒

245_尚硅谷_即席查询_Kylin_部署_启动错误_解决方案

350

170

17分7秒

246_尚硅谷_即席查询_Kylin_使用_定义model

380

171

14分49秒

247_尚硅谷_即席查询_Kylin_使用_定义cube

340

172

16分55秒

248_尚硅谷_即席查询_Kylin_使用_重复key问题解决

370

173

7分26秒

249_尚硅谷_即席查询_Kylin_Hadoop历史服务器问题原因

370

174

6分14秒

24_尚硅谷_用户行为采集_Hadoop安装及配置前准备

350

175

7分26秒

250_尚硅谷_即席查询_Kylin_查询

410

176

15分41秒

251_尚硅谷_即席查询_Kylin_定时调度脚本

380

177

10分37秒

252_尚硅谷_即席查询_Kylin_cube存储原理

310

178

13分33秒

253_尚硅谷_即席查询_Kylin_cube构建原理

310

179

13分53秒

254_尚硅谷_即席查询_Kylin_cube_优化_聚合组

420

180

11分52秒

255_尚硅谷_即席查询_Kylin_cube_优化_衍生维度

330

181

13分14秒

256_尚硅谷_即席查询_Kylin_cube_优化_Rowkey设计

450

182

5分32秒

257_尚硅谷_即席查询_Kylin_cube_优化_并发粒度优化

280

183

13分41秒

258_尚硅谷_即席查询_Kylin_cube_BI对接_JDBC

320

184

10分50秒

259_尚硅谷_即席查询_Kylin_cube_BI对接_Zeppelin

380

185

12分51秒

25_尚硅谷_用户行为采集_Hadoop集群配置

330

186

21分29秒

260_尚硅谷_即席查询_Presto_概念

440

187

16分38秒

261_尚硅谷_即席查询_Presto_部署_Server

340

188

2分15秒

262_尚硅谷_即席查询_Presto_启动_Server

370

189

14分26秒

263_尚硅谷_即席查询_Presto_部署_命令行客户端

370

190

7分39秒

264_尚硅谷_即席查询_Presto_部署_可视化客户端

380

191

17分52秒

265_尚硅谷_即席查询_Presto_使用注意事项

370

192

13分6秒

266_尚硅谷_即席查询_Druid_概述

370

193

14分24秒

267_尚硅谷_即席查询_Druid_对比

410

194

17分40秒

268_尚硅谷_即席查询_Druid_架构

340

195

5分8秒

269_尚硅谷_即席查询_Druid_数据结构

370

196

2分42秒

26_尚硅谷_用户行为采集_项目经验_HDFS多目录

410

197

9分17秒

270_尚硅谷_即席查询_Druid_部署

290

198

12分35秒

271_尚硅谷_即席查询_Druid_使用

370

199

5分23秒

272_尚硅谷_集群监控_Zabbix_概述

380

200

8分42秒

273_尚硅谷_集群监控_Zabbix_架构

350

201

2分15秒

274_尚硅谷_集群监控_Zabbix_部署_说明

340

202

4分18秒

275_尚硅谷_集群监控_Zabbix_部署_Server节点_准备

380

203

10分17秒

276_尚硅谷_集群监控_Zabbix_部署_Server节点_创建用户_建库建表

350

204

10分44秒

277_尚硅谷_集群监控_Zabbix_部署_Server节点_编译环境准备

360

205

3分52秒

278_尚硅谷_集群监控_Zabbix_部署_Server节点_编译及安装

340

206

3分50秒

279_尚硅谷_集群监控_Zabbix_部署_Server节点_配置

380

207

2分59秒

27_尚硅谷_用户行为采集_项目经验_节点间数据均衡

320

208

26分23秒

280_尚硅谷_集群监控_Zabbix_部署_Server节点_系统服务脚本编写

370

209

11分6秒

281_尚硅谷_集群监控_Zabbix_部署_Server节点_web部署

470

210

4分54秒

282_尚硅谷_集群监控_Zabbix_部署_Server节点_启动

390

211

7分17秒

283_尚硅谷_集群监控_Zabbix_部署_Server节点_web

390

212

8分14秒

284_尚硅谷_集群监控_Zabbix_部署_Agent_节点部署

350

213

7分54秒

285_尚硅谷_集群监控_Zabbix_使用_术语

310

214

8分16秒

286_尚硅谷_集群监控_Zabbix_使用_创建主机

340

215

14分38秒

287_尚硅谷_集群监控_Zabbix_使用_创建监控项

440

216

6分32秒

288_尚硅谷_集群监控_Zabbix_使用_创建触发器

340

217

8分56秒

289_尚硅谷_集群监控_Zabbix_使用_创建动作

310

218

9分12秒

28_尚硅谷_用户行为采集_项目经验_配置LZO压缩

400

219

15分13秒

290_尚硅谷_集群监控_Zabbix_使用_通知媒介配置

400

220

3分30秒

291_尚硅谷_集群监控_Zabbix_使用_全流程测试

290

221

14分10秒

292_尚硅谷_集群监控_Zabbix_使用_创建模板

360

222

3分52秒

293_尚硅谷_元数据管理_Atlas_课程背景

420

223

8分15秒

294_尚硅谷_元数据管理_Atlas_课程介绍

300

224

6分40秒

295_尚硅谷_元数据管理_Atlas_架构原理

380

225

13分15秒

296_尚硅谷_元数据管理_Atlas_辅助框架安装

390

226

19分33秒

297_尚硅谷_元数据管理_Atlas_登录后配置

310

227

25分9秒

298_尚硅谷_元数据管理_Atlas_配置并启动

400

228

3分3秒

299_尚硅谷_元数据管理_Atlas_执行效果

330

229

9分20秒

29_尚硅谷_用户行为采集_项目经验_LZO创建索引

320

230

1分15秒

300_尚硅谷_中午演唱会_班主任

310

231

8分19秒

30_尚硅谷_用户行为采集_项目经验_基准测试

400

232

2分46秒

31_尚硅谷_用户行为采集_项目经验_HDFS参数调优

290

233

10分34秒

32_尚硅谷_用户行为采集_项目经验_Yarn参数调优

360

234

9分41秒

33_尚硅谷_用户行为采集_Zookeeper安装

340

235

9分27秒

34_尚硅谷_用户行为采集_Zookeeper启动停止脚本

380

236

5分10秒

35_尚硅谷_用户行为采集_项目经验_登录式Shell和非登录式Shell

290

237

8分44秒

36_尚硅谷_用户行为采集_日志生成（上）

350

238

6分42秒

37_尚硅谷_用户行为采集_日志生成（下）

400

239

5分31秒

38_尚硅谷_用户行为采集_集群日志生成启动脚本

350

240

6分33秒

39_尚硅谷_用户行为采集_集群时间同步修改脚本

330

241

3分30秒

40_尚硅谷_用户行为采集_集群所有进程查看脚本

350

242

3分54秒

41_尚硅谷_用户行为采集_Flume安装

280

243

9分17秒

42_尚硅谷_用户行为采集_项目经验_Flume组成

370

244

12分11秒

43_尚硅谷_用户行为采集_Flume采集配置（上）

360

245

11分49秒

44_尚硅谷_用户行为采集_Flume采集配置（下）

400

246

2分23秒

45_尚硅谷_用户行为采集_Flume拦截器_回顾

370

247

8分21秒

46_尚硅谷_用户行为采集_Flume拦截器_单Event

400

248

3分20秒

47_尚硅谷_用户行为采集_Flume拦截器_启动日志校验

430

249

7分32秒

48_尚硅谷_用户行为采集_Flume拦截器_事件日志校验

310

250

4分22秒

49_尚硅谷_用户行为采集_Flume拦截器_多Event

300

251

8分50秒

50_尚硅谷_用户行为采集_Flume拦截器_分类型拦截器

320

252

5分55秒

51_尚硅谷_用户行为采集_Flume手动启动

420

253

7分25秒

52_尚硅谷_用户行为采集_Flume脚本启动

380

254

7分33秒

53_尚硅谷_用户行为采集_Flume脚本停止

410

255

7分1秒

54_尚硅谷_用户行为采集_Kafka安装

250

256

5分34秒

55_尚硅谷_用户行为采集_Kafka启动停止脚本

330

257

4分52秒

56_尚硅谷_用户行为采集_Flume_Kafka通道打通

350

258

6分54秒

57_尚硅谷_用户行为采集_项目经验_Kafka压力测试

420

259

3分0秒

58_尚硅谷_用户行为采集_项目经验_Kafka机器数量计算

330

260

6分35秒

59_尚硅谷_用户行为采集_消费Flume_组件选型

280

261

13分32秒

60_尚硅谷_用户行为采集_消费Flume_配置文件说明

330

262

5分24秒

61_尚硅谷_用户行为采集_消费Flume_启动脚本小文件演示

370

263

6分21秒

62_尚硅谷_用户行为采集_消费Flume_小文件解决

340

264

3分38秒

63_尚硅谷_用户行为采集_项目经验_内存优化

390

265

9分12秒

64_尚硅谷_用户行为采集_采集通道脚本

370

266

7分29秒

65_尚硅谷_用户行为采集_生成测试数据

440

267

3分8秒

66_尚硅谷_业务数据采集_简介

320

268

7分26秒

67_尚硅谷_业务数据采集_电商理论_电商业务流程

420

269

3分30秒

68_尚硅谷_业务数据采集_电商理论_Spu_Sku

340

270

6分48秒

69_尚硅谷_业务数据采集_电商理论_电商表结构

360

271

8分31秒

70_尚硅谷_业务数据采集_电商理论_电商表详解

430

272

12分47秒

71_尚硅谷_业务数据采集_MySQL安装

380

273

5分37秒

72_尚硅谷_业务数据采集_Sqoop官网说明

340

274

8分59秒

73_尚硅谷_业务数据采集_Sqoop安装

370

275

5分29秒

74_尚硅谷_业务数据采集_MySQL中初始化表

370

276

6分39秒

75_尚硅谷_业务数据采集_业务数据生成_配置文件说明

330

277

3分32秒

76_尚硅谷_业务数据采集_生成2天业务数据

390

278

14分21秒

77_尚硅谷_业务数据采集_同步策略（上）

390

279

17分25秒

78_尚硅谷_业务数据采集_同步策略（下）

330

280

4分24秒

79_尚硅谷_业务数据采集_分析表同步策略

390

281

11分35秒

80_尚硅谷_业务数据采集_脚本中前一天时间获取

380

282

16分46秒

81_尚硅谷_业务数据采集_Sqoop参数说明

330

283

6分21秒

82_尚硅谷_业务数据采集_Sqoop参数说明_回顾

340

284

9分18秒

83_尚硅谷_业务数据采集_Sqoop脚本_具体表同步策略

380

285

10分23秒

84_尚硅谷_业务数据采集_Sqoop脚本完成

340

286

2分31秒

85_尚硅谷_业务数据采集_Sqoop脚本执行

330

287

29分2秒

86_尚硅谷_业务数据采集_20200310数据导入过程

400

288

24分11秒

87_尚硅谷_业务数据采集_20200311数据导入过程

360

289

2分1秒

88_尚硅谷_业务数据采集_数据导入成功后查看

330

290

7分48秒

89_尚硅谷_业务数据采集_Hive安装

370

291

3分11秒

90_尚硅谷_业务数据采集_Tez框架原理

320

292

3分58秒

91_尚硅谷_业务数据采集_Tez解压安装

310

293

8分0秒

92_尚硅谷_业务数据采集_Tez集成Hive

390

294

6分41秒

93_尚硅谷_业务数据采集_Tez注意事项

390

295

8分57秒

94_尚硅谷_数仓理论_课程介绍

340

296

13分57秒

95_尚硅谷_数仓理论_数仓分层及好处（上）

330

297

7分54秒

96_尚硅谷_数仓理论_数仓分层及好处（下）

360

298

3分43秒

97_尚硅谷_数仓理论_数据集市与数据仓库概念

340

299

4分14秒

98_尚硅谷_数仓理论_命名规范

450

300

8分39秒

99_尚硅谷_数仓理论_范式概念

350

215_尚硅谷_任务调度_Azkaban_Sqoop导出脚本

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐