文章/答案/技术大牛

发布

首页视频151-尚硅谷-数仓搭建-DWD层业务表之拉链表制作过程概述

151-尚硅谷-数仓搭建-DWD层业务表之拉链表制作过程概述

2022-12-022022-12-02 16:02:24播放35

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据电商数仓项目（含2.0、3.0版本）/尚硅谷数仓项目实战V3.0/视频/151-尚硅谷-数仓搭建-DWD层业务表之拉链表制作过程概述.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
这页PPT呢，是我们去制作拉链表的这个核心啊，把这页PPT咱们得好好看一下啊，看怎么做拉链表。嗯。来，我们一起看一下。嗯。来一起看一下这个拉链表的形成过程啊。呃，现在呢，我们来看这边先啊，这个图全出来了，咱们先不用看啊，咱们先看这看这看这一部分就行，呃，这边假设，假设什么呢？说2019年1月1日的全量的这个用户表是以下的这个表啊，什么例子啊，举个例子啊，在这儿呢，他想说的是这个啊，就是在2019年1月1号的时候。我们买SQ当中，就是业务系统当中啊，我们是不是就呃已经有一个这个用户表了呀，用户表当中是不是已经有一部分的历史数据了呀，然后咱们数仓是从哪天开始搭建的呢。是从1月1号开始搭建的啊，就是1月1号之前，咱们业务系统已经跑了有好几年了，是不是已经积累了一部分的历史用户了啊，然后呢，咱们出仓才开始搭建，那且以后大家到公司之后呢，哎，大部分的情况也是这样啊，就一般情况咱们数仓跟这个业务系统一般情况下不是同步展开的，那都是到到公司之后呢，都是业务系统早就有了，然后你去了再重新开始拉出仓啊，是不是都是这种情况啊啊就是在历史数系统的业务系统当中已经有一部分的历史数据了啊，那我们现在假如说已经有历史数据了，然后呢，我要做拉链表对吧，咱们得保证拉链表里边得有什么。
01:28
是不是得有全部的这个用户啊，是不是得有全量用户，因为我们去使用拉链表的时候，我有一个使用场景，就是获取全量的什么最新和全量的历史数据，对不对，得有全量用户才行，那所以说我们这儿需要怎么做呀？需要做一个初始化导入，需要做一个初始化导入，因为如果说你不做初始化导入啊，不做初始化导入，那你说我们拉链表每天这个同步方式是什么样，是每日新增及变化对不对？那你是不是第一天只能把它的新增和变化的那部分数据用户拿到对不对？那其他的老用户没变的那些你能拿到吗？
02:04
拿不到，那你这个拉链表是不是用起来就有问题啊，所以说呢，我们做拉链表呢，我们需要做一步这个数据的初始化啊，其实这个所谓的初始化应该怎么做呀。初化怎么做，很简单啊，初始化呢，就是我们需要啊，将买SQL当中，也就我们业务系统当中啊，那个存储用户的那个信息的那张表里边儿就是用户表呗，从用户表里边把它所有的数据。啊，全部一次性的导入到我们这个拉链表里。啊，做一次全量同步相当于。啊，那当然这个全量同步这个任务，咱们是不是单独走一次就行了呀，因为初始化是不是只需要做一次啊，就是在呃，你搭出仓的第一天啊，把我们这个呃用户表的全部数据给它拿到我们出仓里边啊，那拿回来之后呢，你要知道啊，咱们这个数仓里边，呃，这个拉链表呢，有一个特点，我们要比这个普通的用户表是不是多俩字段呀，一开始一个结束，那这俩时间咱们怎么去处理呢？
03:05
呃，先说结束吧，结束肯定都是啥。都是999，为什么？因为业务系统当中我们保存的是不是就是最新状态，就那肯定都是九九，那关键是这个开始时间怎么办。看时间咋整。说实话，这个开始时间不太好找。为什么不太好找啊，你要知道这个开始时间指的是什么的开始时间是不是每个状态的开始时间呀，对不对，那你知道张三是从什么时候开始叫张三，李四什么时候开始叫的吗？不知道对不对，因为业务系统当中我一般不会去记录这些历史数据的，对吧？啊，那没有的话，那这怎么办呢？你获取不到，那就没办法了，除非你业务系统那边，那边有流水记录，有记录的话你可以获取到，那要没有的话，我们只能是怎么做呀啊，给他随意的指定一个，但也不能太随意啊，那一般情况下我们就把开始时间指定成啥呀，只能咱们数仓第一天开始运行的时间啊，只能是这样去做了，因为你获取不到嘛，啊，这个没有办法啊，那所以说这样呢，我们需要做一个这个初始化啊，这个初始化怎么做呀，问一下大家要让你做的话。
04:09
怎么做呀？写S库脚本呗，对不对，S库写做来一个全量导入给导到HS上hfs呢，再给它导到咱们的用户拉链表里，是不是这样一个过程啊，这是初始化导入，这个我们要搞清楚啊行，那这个第一天初始化完了，接下来时间来到第二天是不是就是9月2号了呀，9月2号了啊9月2号了，那9月2号呃，不是九月，是1月2号，2019年1月2号啊啊1月2号，那来到1月2号之后呢，你看我们买买SQ当中这张用户表发生了一些变化。啊，这个变化具体是什么呀，你看一下。是不是多了俩用户，这相当于是新增用户对不对？那还有什么，是不是还有一一个用户信息改了呀，这是不是相当于发生了新增及变化对吧？信息变化啊，那新增级变化之后呢？我们需要怎么做呀？是不是需要把MY当中的新增级变化是不是得导到我们的数据仓库当中，对不对？那这个下边是不是就是我们获取到的新增级变化呀？咱们怎么去获取的我们那个用户表的新增级变化呀？
05:12
怎么就过去的？是不是根据创建时间和那个操作时间就是create time oper time啊呃，Create time等于今天，Op time等于今天，那就是今天的新增级变化，对吧？那也就是说我们通过他俩就能达到李四的这个就是二号用户以及四号和五号用户的这个信息能看懂吧，这就是新增级变化，那咱们接下来要干什么呀？接下来咱们是要将这个新增级变化得整合到这个拉链表里边啊对不对？来咱们看看这个整合。具体应该怎么做？这个整合应该怎么做？啊，这个整合怎么做。啊，这个很显然，这是我们现在最终得到的结果，对吧？啊，那咱们具体怎么实操呢？咱们需要做哪些工作呀。首先我们需要做第一件事儿啊，第一件什么事呢？需要先将我们拿到的这个新增及变化呀，是不是得处理一下呀，所以你得给他补上俩字段。
06:06
哪俩字段，一个是开始，一个是结束日期，那开始日期应该是哪一天？今天对不对，那就是他是不是就从今天开始才叫李小四，那这个是不从今天开始才新增啊啊就是那那结束日期呢，9999对吧，不管是新增还是修改，它的结束日期和新增日期是不都是相同的啊不不是结束日期不是，呃，结束日期和这个这个开始日期啊，开始日期都是今天结束日期都是9999，没错吧？啊OK，处理好了，那对今天的新增及变化你处理好了。那你还得对什么处理一下？是不是还得对咱们这个原来的拉链表也得给他处理一下呀，处理谁在咱们这儿处理谁。处理出二号用户的之前的李四那个状态呀，对不对，因为在今天之前李四是他的最新状态，但最新状态已经是李小四了，那是不是999就得改一下呀，这个改成什么呀？注意啊，咱们一般是改成昨天的日期。
07:05
昨天哎，我们必须得保证什么，保证我们一个用户的所有的状态之间啊，它那个时间是不能重合的。对不对啊，你比如说第一个状态二号到三号，那第二一个呢，就得是四号到，哎五号或者是到多少号能理解吧，你不能第一个是一号到二号，第二是二号的三号，那我要获取二号的数据，那你是不是就获取俩状态了呀，那那就有歧义了啊，所以说不能重复啊，不能重复啊，不能重合啊，那所以说我们需要将这个9999改成昨天的日期，那今天是不是1月2号，昨天日期就是多少，就是1月1号呗，啊1月1号啊，哎，得改了，那OK，那新的数据咱们也处理好了，那旧的数据也处理好了，对不对。这部分数据和这部分数据应该怎么样放到一块儿啊。咱别放在一块啊。是不是直接这俩东西上下一合并就完事了呀？
08:03
对不对啊，上下一合并完事，那上下一合并咱们这用啥对，是不是用妖精就行啊，那最终呢，就得到了咱们最新的拉链表了。啊，这是咱们这个拉链表的这个制作过程，那其实大家要知道啊，我们其实以后每天重复要做的工作，应该都是什么工作呀。第一天我们需要做一个初始化，对吧，那后续每天重复咱们要做的工作是哪部分呀。是不要是获取新增级变化啊，然后呢，修改这个开始和结束日期，然后呢，把这个原来那张拉链表里边的结束日期改几个，对不对，这俩东西合并，说每天重复做的工作应该是这部分呀啊，新的数据拿过来跟原来的比，旧表进行一个进行一个整合，每天重复的工作就是这个整合。啊，每天整合，每天整合啊，然后呢，初始化呢，就第一天做一次就可以了啊，这是咱们这个拉链表的制作过程。啊好，那接下来呢，我们来继续往下思考啊，咱们就思考哪啊思考这你看啊，这会儿咱是不是需要去改9999，那这又涉及到了什么，又涉及到了修改have当中的数据了吧，对不对，那have当中数据怎么修改来着，是不是查出来查了过程当中进行判断啊，改完之后再放过去啊，是不是这样一个过程，那他这儿也是这么去做的啊来往下翻。
09:20
来看一下，还有一个PPT啊，这个再看一下吧啊。呃，这个PPT呢，先看左边啊，左边这。嗯，左边这呢，这儿说了一个这个，这就就看括号里边啊，这就解决了have中数据不能更新的问题，其实have当中数据实际上也是能更新的，对吧？咱们说了你只要做那个呃，分通表是不是就能更新了呀，对不对，就能更新了啊，这边假定说是不可能更新啊，那这个怎么解决的呀，其实就是刚才咱们说的啊，就是把数据查出来，查出来修改再放回去，这就修改了啊，这说的就这个事儿，这个文字就不用看了啊，咱们看右边的图。这边右边这个图呢，哎，帮我们把我们每天需要重复执行的这个工作呢，又给我们总结了一下啊，咱们看这个图啊，看怎么做的啊，首先做拉链表，第一天我需要做一个初始化导入，对吧，就是初始化导入首日嘛，啊初始导入，然后从第二天开始，我就怎么做，从MYSQ当中获取变动数据，里边是不是包括新增，包括修改。
10:18
对不对，拿过来，拿过来之后呢，我需要怎么做呀？哎，把开始和结束日期是不是给它加上啊，完之后呢，我还得怎么做，是不是还得从原来就是昨天那个拉链表，是不是把那个数据查出来呀，查来之后呢，我得怎么做，我是不是得把那个日期9999该改的得改呀，对不对，改完之后，那这个今天的跟原来的这个俩这俩表应该怎么做，是不是优念到一块儿啊对不对，UN念到一块之后怎么办？是不是正常情况下咱们直接insert over right回这个拉力表就行了。对不对，但是他这你看他怎么做了，他说并没有直接insert or回去啊，他放到哪去了，给他放到一个临时表里边去了。那临时表之后呢，什么都没做，然后又从临时表是不是又给他insert到allright到用户栏里表里边去了呀，那是不是这他看着相当于是多做了一步啊对不对，他多做这一步是干什么事的呀，他在干什么呀，为什么要多做这一步？
11:15
就是在这儿呢，他考虑的是什么？考虑的是这个数据的安全问题。啊啊，什么安全问题呢？哎，大家这个得考虑一个这样的问题啊，就是大家了解不了解我们have当中这个insert overri啊，就是这个操作，它底层的这个执行顺序是什么样的。啊，因此而大家都知道我会把这个原来的数据给覆盖掉，对吧，用新的数据对不对，那这个具体的，诶这个操作是什么样的呢。啊，他是先上来就把这个表当中原来的数据给删掉，然后再把新的数据写进来吗？是这个顺序吗？是不是这个顺序。啊，不知道对吧，那咱们假如说它是这个顺序啊，假如说我因此而外的就是先把这张表的数据删掉，然后呢，再把新数据给它写进来，假如说是这个顺序啊，那你看一看，如果说我们这没有这个临时表，你看它会不会有什么问题啊，如果没有临时表，按照我们刚才那个呃分析，你看怎么做啊，这是今天的新变化数据对不对，那这是我们这个老数据啊，那我现在呢，把这个数据是不是拿出来了对不对，然后我现在如果直接insert o right回去，那刚才说了音色OS，假如咱们是先删后斜对不对，那现在我我怎么做。
12:29
我是不是直接删了呀，对不对，结果删了之后，我再往里边写的时候，我给失败了，报错了。对不对，这个集群出问题了，那是不是这个数据原来的也被你删了，然后新数据也没写进去，那是不是拉里面的数据全没了呀，对不对，哎，他其实是考虑到这一点啊，考虑到一点，那如果说那咱们考虑到这一点之后，我加一个临时表呢，那你看这个现象能不能解决啊，这个问题能不能解决，你看啊新数据旧数据啊，查出来啊，查出来之后我放在哪，我先放临时表。
13:02
啊，那这边这表里的数据还有没有有啊，我先放临时表对不对，然后我把临时表的数据啊，我写到临时表之后呢，那这个相当于是我这个数据是不是就写完了对不对，那写完了之后我再往这里边写。啊，再往这里边写，哎，那这时候咱们还怕他丢吗？哎，不怕了，为什么，你想想啊，假如说我在往临时表写，是不是也是先删后写呀，对不对，那我先删了，结果写都是写失败了，哎，那这个你怕不怕，怕吗？不怕，为啥还有。我再来一遍是不是就行了，对不对，这个这样来的话能安全一点啊，它其实出于这个考虑，但其实这个考虑呢，是是多余的，是多余的啊，为什么多余的呢？因为人家have，人家没那么傻啊，In inside allright，人家没那么傻，他不是先删后写的。啊，不是先上后写，你要是仔细去观察那个have insert or right这个任务啊，你仔细去观察你会发现啊，它是怎么做的呀，它是先往啊先往哪先往一个临时路径斜咱们这个结果。
14:03
对不对，因此会先往一个临时路径写咱们的数据，OK，写完之后怎么做呀，再把再把你写完的这个临时文件的数据啊，给它改名为真正的这个文件，就改一下路径的事儿。对不对啊，那这样一来，原来那个数据呢，才会被删掉。嗯，也就他应该是怎么做的呀，是不是应该是先写完，哎没问题了，我是不是再把原来的给删掉啊，啊实际上是这样一个过程，其实那个临时路径就有点类似于谁呀。是不是就类似于咱们这个临时表这个作用啊，啊是这样的，那当然因为咱们本身have就有这个临时路径这个机制，所以临时表这个东西你建不建无所谓啊，那在这儿呢，其实这个步这一步呢，可以完全就不做了，那直接在俩合并啊，完了之后怎么办？直接到下一个拉链表里边啊，直接写回就行了，你像我们之前咱们DWD仓啊，DW层咱们那个累计型快照师表，咱们是不是也是直接in字偶尔的回去了呀，对不对，那也没有问题啊啊，那咱们知道这回事儿就行了啊。
15:03
啊，那这边呢，相当于给大家看了一下啊，就是每天呃重复这个每天首次导入，然后每天重复做的事呢，就是诶把这个新数据跟旧数据合并，再放回拉链表就完事了，这是咱们这个制作流程啊。好，视频录一下。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷数仓项目实战V3.0

（148/291）

7分1秒

001-尚硅谷-数据仓库-课程介绍

390

19分57秒

002-尚硅谷-数据仓库-项目概述

350

15分4秒

003-尚硅谷-项目分析-需求分析

300

17分26秒

004-尚硅谷-项目分析-技术选型

420

11分48秒

005-尚硅谷-项目分析-数据流程设计图

370

13分25秒

006-尚硅谷-项目分析-框架版本选择

380

10分2秒

007-尚硅谷-项目分析-服务器选型

270

11分59秒

008-尚硅谷-项目分析-集群规模规划

370

20分1秒

009-尚硅谷-日志采集-埋点目标数据

560

9分50秒

010-尚硅谷-日志采集-主流埋点方式(了解)

460

12分31秒

011-尚硅谷-日志采集-日志数据结构

400

4分42秒

012-尚硅谷-日志采集-埋点数据上报时机

340

14分25秒

013-尚硅谷-日志采集-服务器准备

420

8分40秒

017-尚硅谷-日志采集-JDK配置及免密配置

370

1分48秒

018-尚硅谷-日志采集-JDK分发

370

7分30秒

019-尚硅谷-日志采集-Linux环境变量说明

420

10分24秒

020-尚硅谷-日志采集-模拟生成日志

380

7分37秒

021-尚硅谷-日志采集-模拟日志脚本

380

5分25秒

022-尚硅谷-日志采集-Hadoop部署之环境变量配置

340

19分0秒

023-尚硅谷-日志采集-Hadoop部署之核心配置

520

12分27秒

024-尚硅谷-日志采集-Hadoop部署之其余配置

370

2分43秒

025-尚硅谷-日志采集-Hadoop部署之历史服务器和日志聚集配置

390

4分23秒

026-尚硅谷-日志采集-Hadoop部署之启动及测试

470

9分17秒

027-尚硅谷-日志采集-Hadoop项目经验之多目录存储

360

8分27秒

028-尚硅谷-日志采集-Hadoop项目经验之数据均衡

300

7分30秒

029-尚硅谷-日志采集-Hadoop项目经验之LZO压缩配置

330

5分21秒

030-尚硅谷-日志采集-Hadoop项目经验之LZO压缩测试

380

9分0秒

031-尚硅谷-日志采集-Hadoop项目经验之LZO切片说明

340

8分39秒

032-尚硅谷-日志采集-Hadoop项目经验之参数调优

290

27分28秒

033-尚硅谷-日志采集-Hadoop项目经验之基准测试

360

7分39秒

034-尚硅谷-日志采集-通道设计规划

440

9分38秒

035-尚硅谷-日志采集-Zookeeper部署

270

10分52秒

036-尚硅谷-日志采集-Kafka安装

360

20分5秒

037-尚硅谷-日志采集-Kafka常用脚本

340

5分16秒

038-尚硅谷-日志采集-Kafka常用脚本补充

240

12分51秒

039-尚硅谷-日志采集-Kafka压力测试

330

9分17秒

040-尚硅谷-日志采集-Kafka机器数量与分区数量计算

430

4分31秒

041-尚硅谷-日志采集-Flume安装

400

5分21秒

042-尚硅谷-日志采集-日志采集配置方案对比

340

8分42秒

043-尚硅谷-日志采集-监控日志Flume组件选择

420

23分13秒

044-尚硅谷-日志采集-监控日志Flume配置文件

340

17分57秒

045-尚硅谷-日志采集-监控日志Flume拦截器编码

430

12分7秒

046-尚硅谷-日志采集-监控日志Flume测试

400

28分24秒

047-尚硅谷-日志采集-Flume启停脚本

360

10分31秒

048-尚硅谷-日志采集-消费KafkaFlume功能分析

340

2分18秒

049-尚硅谷-日志采集-消费KafkaFlume中KafkaChannel注意事项

420

37分35秒

050-尚硅谷-日志采集-消费KafkaFlume配置文件

380

9分2秒

051-尚硅谷-日志采集-消费KafkaFlume时间戳拦截器

440

9分26秒

052-尚硅谷-日志采集-消费KafkaFlume测试

390

1分21秒

053-尚硅谷-日志采集-消费KafkaFlume启停脚本

390

4分38秒

054-尚硅谷-日志采集-消费KafkaFlume内存调整

320

3分23秒

055-尚硅谷-日志采集-小结

310

12分12秒

056-尚硅谷-业务数据采集-电商系统概述

370

7分7秒

057-尚硅谷-业务数据采集-电商系统基本概念

340

7分44秒

058-尚硅谷-业务数据采集-电商系统表结构说明

370

25分1秒

059-尚硅谷-业务数据采集-电商系统核心表概述

340

15分55秒

060-尚硅谷-业务数据采集-电商系统表结构讲解

410

7分58秒

061-尚硅谷-业务数据采集-电商系统表字段说明

380

9分27秒

062-尚硅谷-业务数据采集-模拟数据生成之mysql部署

370

3分40秒

063-尚硅谷-业务数据采集-模拟数据生成之建表

350

10分23秒

064-尚硅谷-业务数据采集-模拟数据生成之EZDM使用简明介绍

410

9分39秒

065-尚硅谷-业务数据采集-模拟数据生成之测试

470

7分11秒

066-尚硅谷-业务数据采集-Sqoop概述

400

7分12秒

067-尚硅谷-业务数据采集-Sqoop安装

370

4分53秒

068-尚硅谷-业务数据采集-Sqoop测试

360

26分13秒

069-尚硅谷-业务数据采集-Sqoop基础使用

440

7分4秒

070-尚硅谷-业务数据采集-Sqoop使用之SQL形式导入

350

23分40秒

071-尚硅谷-业务数据采集-数据同步策略

340

14分33秒

072-尚硅谷-业务数据采集-业务数据表同步策略划分

360

40分18秒

073-尚硅谷-业务数据采集-Sqoop导入脚本之基础说明

310

7分33秒

074-尚硅谷-业务数据采集-Sqoop导入脚本之同步策略说明

450

2分40秒

075-尚硅谷-业务数据采集-Sqoop导入脚本之测试

350

1分35秒

076-尚硅谷-业务数据采集-Sqoop导入脚本之存在问题分析

380

3分57秒

077-尚硅谷-业务数据采集-Sqoop导入脚本之数据验证

420

34分16秒

078-尚硅谷-数仓建模理论-分层概述

440

5分48秒

079-尚硅谷-数仓建模理论-数据集市

300

7分43秒

080-尚硅谷-数仓建模理论-命名规范

390

17分1秒

081-尚硅谷-数仓建模理论-范式理论之概述

370

8分27秒

082-尚硅谷-数仓建模理论-范式理论之函数依赖

380

13分9秒

083-尚硅谷-数仓建模理论-范式理论之三范式

420

12分35秒

084-尚硅谷-数仓建模理论-OLTP与OLAP概述

420

18分6秒

085-尚硅谷-数仓建模理论-关系建模与维度建模

520

15分2秒

086-尚硅谷-数仓建模理论-维度模型之事实表与维度表

500

17分0秒

087-尚硅谷-数仓建模理论-维度模型之事实表分类

380

9分27秒

088-尚硅谷-数仓建模理论-维度模型之模型分类

490

13分41秒

089-尚硅谷-数仓建模理论-数仓分层模型之整体概述

380

4分33秒

090-尚硅谷-数仓建模理论-数仓分层模型之ODS层

380

26分1秒

091-尚硅谷-数仓建模理论-数仓分层模型之DWD层

310

30分51秒

092-尚硅谷-数仓建模理论-数仓分层模型之DWD层维度建模演示

400

11分2秒

093-尚硅谷-数仓建模理论-数仓分层模型之DWS层与DWT层

370

2分10秒

094-尚硅谷-数仓建模理论-数仓分层模型之建模驱动

430

10分34秒

095-尚硅谷-数仓环境准备-Hive安装

400

4分30秒

096-尚硅谷-数仓环境准备-Hive引擎说明

410

8分35秒

097-尚硅谷-数仓环境准备-框架兼容性问题说明

330

23分32秒

098-尚硅谷-数仓环境准备-HiveOnSpark配置

590

10分7秒

099-尚硅谷-数仓环境准备-HiveOnSpark测试

480

17分14秒

100-尚硅谷-数仓环境准备-Yarn容量调度器之并发度问题演示

400

19分38秒

101-尚硅谷-数仓环境准备-Yarn容量调度器之多队列配置

350

8分21秒

102-尚硅谷-数仓环境准备-Yarn容量调度器之提交任务指定队列

380

100

8分24秒

103-尚硅谷-数仓环境准备-DataGrip使用介绍

380

101

16分43秒

104-尚硅谷-数仓环境准备-新数据准备

350

102

11分4秒

105-尚硅谷-数仓搭建-ODS层日志表之建表语句

380

103

5分32秒

106-尚硅谷-数仓搭建-ODS层日志表之数据装载

360

104

7分58秒

107-尚硅谷-数仓搭建-ODS层日志表之装载脚本

330

105

4分33秒

108-尚硅谷-数仓搭建-扩展之Shell脚本引号总结

370

106

6分18秒

109-尚硅谷-数仓搭建-ODS层业务表之建表语句

340

107

4分28秒

110-尚硅谷-数仓搭建-ODS层业务表之装载脚本

420

108

8分8秒

111-尚硅谷-数仓搭建-DWD层日志表之数据结构回顾

400

109

7分34秒

112-尚硅谷-数仓搭建-DWD层日志表之Hive解析JSON函数说明

450

110

6分3秒

113-尚硅谷-数仓搭建-DWD层日志表之日志解析思路分析

340

111

7分26秒

114-尚硅谷-数仓搭建-DWD层日志表之启动表建表语句

330

112

9分0秒

115-尚硅谷-数仓搭建-DWD层日志表之启动表数据装载

360

113

4分28秒

116-尚硅谷-数仓搭建-DWD层日志表之页面表

380

114

9分14秒

117-尚硅谷-数仓搭建-DWD层日志表之动作表解析思路

360

115

5分42秒

118-尚硅谷-数仓搭建-回顾之explode函数使用说明

340

116

3分16秒

119-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数设计

270

117

11分16秒

120-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数说明

420

118

27分6秒

121-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数编写(一)

380

119

8分49秒

122-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数编写(二)

390

120

3分38秒

123-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数注意事项

300

121

6分10秒

124-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数创建

360

122

8分6秒

125-尚硅谷-数仓搭建-DWD层日志表之动作表数据装载

420

123

4分47秒

126-尚硅谷-数仓搭建-DWD层日志表之曝光表

450

124

9分8秒

127-尚硅谷-数仓搭建-DWD层日志表之错误表

400

125

9分57秒

128-尚硅谷-数仓搭建-DWD层数据装载之lzo索引文件识别问题

340

126

5分46秒

129-尚硅谷-数仓搭建-DWD层日志表之数据装载脚本

370

127

4分54秒

130-尚硅谷-数仓搭建-DWD层业务表之维度模型概述

340

128

11分5秒

131-尚硅谷-数仓搭建-DWD层业务表之商品维度表

330

129

1分50秒

132-尚硅谷-数仓搭建-DWD层业务表之优惠券维度表

430

130

11分44秒

133-尚硅谷-数仓搭建-DWD层业务表之活动维度表

350

131

3分40秒

134-尚硅谷-数仓搭建-DWD层业务表之地区维度表

450

132

16分34秒

135-尚硅谷-数仓搭建-DWD层业务表之时间维度表

340

133

19分22秒

136-尚硅谷-数仓搭建-DWD层业务表之支付事实表

380

134

7分22秒

137-尚硅谷-数仓搭建-DWD层业务表之退款事实表

300

135

9分45秒

138-尚硅谷-数仓搭建-DWD层业务表之评价事实表

390

136

7分8秒

139-尚硅谷-数仓搭建-DWD层业务表之订单明细实表建表语句

380

137

14分1秒

140-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(一)

310

138

9分26秒

141-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(二)

300

139

10分46秒

142-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(三)

290

140

7分56秒

143-尚硅谷-数仓搭建-DWD层业务表之加购与收藏事实表

390

141

10分16秒

144-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表分析

390

142

7分48秒

145-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表分区规划

380

143

9分35秒

146-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表数据装载思路

320

144

16分4秒

147-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表数据装载

330

145

9分53秒

148-尚硅谷-数仓搭建-DWD层业务表之订单事实表建表语句

430

146

43分22秒

149-尚硅谷-数仓搭建-DWD层业务表之订单事实表数据装载

340

147

17分10秒

150-尚硅谷-数仓搭建-DWD层业务表之拉链表概述

330

148

15分19秒

151-尚硅谷-数仓搭建-DWD层业务表之拉链表制作过程概述

350

149

17分40秒

152-尚硅谷-数仓搭建-DWD层业务表之用户维度表(一)

400

150

19分44秒

153-尚硅谷-数仓搭建-DWD层业务表之用户维度表(二)

390

151

8分10秒

154-尚硅谷-数仓搭建-DWD层业务表之数据装载脚本

340

152

28分38秒

155-尚硅谷-数仓搭建-DWS&DWT层之业务术语

360

153

14分11秒

156-尚硅谷-数仓搭建-DWS&DWT层之日期函数

380

154

7分22秒

157-尚硅谷-数仓搭建-DWS&DWT层之复杂数据类型使用说明

330

155

16分3秒

158-尚硅谷-数仓搭建-DWS层之会员主题每日汇总表建表语句

400

156

47分40秒

159-尚硅谷-数仓搭建-DWS层之会员主题每日汇总表数据装载

270

157

24分16秒

160-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表建表语句

310

158

6分37秒

161-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载思路分析

390

159

14分46秒

162-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载(一)

390

160

29分43秒

163-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载(二)

360

161

5分43秒

164-尚硅谷-数仓搭建-DWS层之设备主题每日汇总表建表语句

330

162

13分7秒

165-尚硅谷-数仓搭建-DWS层之设备主题每日汇总表数据装载

370

163

6分35秒

166-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表建表语句

340

164

13分45秒

167-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表初次装载说明

390

165

9分28秒

168-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表数据装载

480

166

1分20秒

169-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表建表语句

370

167

23分6秒

170-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(一)

390

168

24分27秒

171-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(二)

430

169

9分25秒

172-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(二)

320

170

12分3秒

173-尚硅谷-数仓搭建-DWT层之商品主题累积汇总表

400

171

20分48秒

174-尚硅谷-数仓搭建-DWS&DWT层之活动主题汇总表

430

172

16分29秒

175-尚硅谷-数仓搭建-DWS&DWT层之地区主题汇总表

430

173

7分5秒

176-尚硅谷-数仓搭建-DWS&DWT层之数据装载脚本

401

174

45分43秒

177-尚硅谷-数仓需求-设备主题之活跃设备数

350

175

4分36秒

178-尚硅谷-数仓需求-设备主题之新增&沉默&流失需求说明

330

176

6分13秒

179-尚硅谷-数仓需求-设备主题之新增设备数需求讲解

260

177

4分9秒

180-尚硅谷-数仓需求-设备主题之沉默用户数需求讲解

380

178

2分51秒

181-尚硅谷-数仓需求-设备主题之流失用户数需求讲解

370

179

8分5秒

182-尚硅谷-数仓需求-设备主题之留存率需求说明

430

180

2分2秒

183-尚硅谷-数仓需求-设备主题之回流用户数需求说明(一)

430

181

2分9秒

184-尚硅谷-数仓需求-设备主题之回流用户数需求说明(二)

400

182

1分57秒

185-尚硅谷-数仓需求-设备主题之最近三周连续活跃用户数需求说明

390

183

2分15秒

186-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求说明

360

184

16分33秒

187-尚硅谷-数仓需求-设备主题之连续三周活跃需求讲解(思路一)

420

185

8分26秒

188-尚硅谷-数仓需求-设备主题之连续三周活跃需求讲解(思路二)

330

186

14分24秒

189-尚硅谷-数仓需求-设备主题之回流用户数需求讲解

370

187

21分0秒

190-尚硅谷-数仓需求-设备主题之留存率需求讲解(思路一)

410

188

9分28秒

191-尚硅谷-数仓需求-设备主题之留存率需求讲解(思路二)

410

189

20分19秒

192-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求讲解(思路一)

350

190

13分4秒

193-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求讲解(思路二)

330

191

4分44秒

194-尚硅谷-数仓需求-会员主题之会员信息统计需求说明

370

192

5分15秒

195-尚硅谷-数仓需求-会员主题之漏斗分析需求说明

390

193

1分51秒

196-尚硅谷-数仓需求-商品主题之商品个数需求说明

340

194

10分1秒

197-尚硅谷-数仓需求-会员主题之会员信息统计需求讲解

330

195

21分8秒

198-尚硅谷-数仓需求-会员主题之漏斗分析需求讲解(思路一)

370

196

6分16秒

199-尚硅谷-数仓需求-会员主题之漏斗分析需求讲解(思路二)

270

197

5分51秒

200-尚硅谷-数仓需求-商品主题之商品个数需求讲解

310

198

8分5秒

201-尚硅谷-数仓需求-商品主题之全局TopN需求说明

380

199

2分45秒

202-尚硅谷-数仓需求-商品主题之分组TopN需求说明

390

200

4分28秒

203-尚硅谷-数仓需求-商品主题之销量排行需求讲解

330

201

3分21秒

204-尚硅谷-数仓需求-商品主题之退款率排行需求讲解

390

202

2分44秒

205-尚硅谷-数仓需求-商品主题之差评率排行需求讲解

360

203

10分57秒

206-尚硅谷-数仓需求-商品主题之分组TopN需求讲解

330

204

7分32秒

207-尚硅谷-数仓需求-营销主题之下单&支付统计需求说明

350

205

9分14秒

208-尚硅谷-数仓需求-营销主题之品怕复购率需求说明

380

206

3分44秒

209-尚硅谷-数仓需求-营销主题之下单统计需求讲解

370

207

11分45秒

210-尚硅谷-数仓需求-营销主题之支付统计需求讲解

350

208

16分54秒

211-尚硅谷-数仓需求-营销主题之复购率需求讲解(思路一)

370

209

9分18秒

212-尚硅谷-数仓需求-营销主题之复购率需求讲解(思路二)

460

210

7分48秒

213-尚硅谷-数仓需求-ADS层数据导入脚本

400

211

14分47秒

214-尚硅谷-全流程调度-工作流程概述

360

212

11分26秒

215-尚硅谷-全流程调度-调度系统概述

400

213

7分54秒

216-尚硅谷-全流程调度-Azkaban部署模式概述

380

214

2分57秒

217-尚硅谷-全流程调度-Azkaban安装之安装包准备

380

215

5分53秒

218-尚硅谷-全流程调度-Azkaban安装之数据库准备

340

216

11分25秒

219-尚硅谷-全流程调度-Azkaban安装之Exec部署

400

217

10分6秒

220-尚硅谷-全流程调度-Azkaban安装之Web部署

470

218

7分53秒

221-尚硅谷-全流程调度-Azkaban使用之入门案例

350

219

5分30秒

222-尚硅谷-全流程调度-Azkaban使用之工作流程配置文件说明

390

220

11分22秒

223-尚硅谷-全流程调度-Azkaban使用之Yaml文件格式概述

390

221

6分34秒

224-尚硅谷-全流程调度-Azkaban使用之任务依赖配置

420

222

4分23秒

225-尚硅谷-全流程调度-Azkaban使用之自动失败重试

380

223

3分56秒

226-尚硅谷-全流程调度-Azkaban使用之手动失败重试

390

224

6分57秒

227-尚硅谷-全流程调度-Azkaban使用之定时调度

410

225

9分35秒

228-尚硅谷-全流程调度-Azkaban使用之邮件配置

470

226

4分35秒

229-尚硅谷-全流程调度-Azkaban使用之邮件通知演示

310

227

5分14秒

230-尚硅谷-全流程调度-实操之Sqoop导出功能说明

440

228

15分3秒

231-尚硅谷-全流程调度-实操之MySQL建库建表

330

229

28分36秒

232-尚硅谷-全流程调度-实操之Sqoop导出脚本

380

230

6分58秒

233-尚硅谷-全流程调度-实操之新数据准备

360

231

7分13秒

234-尚硅谷-全流程调度-实操之Azkaban启停脚本

370

232

11分9秒

235-尚硅谷-全流程调度-实操之Azkaban工作流程配置文件编写

360

233

5分22秒

236-尚硅谷-全流程调度-实操之Azkaban工作流传参说明

440

234

9分34秒

237-尚硅谷-全流程调度-实操之Azkaban全流程调度演示

360

235

8分16秒

238-尚硅谷-全流程调度-实操之Azkaban问题总结

360

236

4分45秒

239-尚硅谷-数据可视化-概述

450

237

6分22秒

240-尚硅谷-数据可视化-Superset概述

370

238

15分56秒

241-尚硅谷-数据可视化-Superset安装之Miniconda部署

520

239

9分43秒

242-尚硅谷-数据可视化-Superset安装之准备Python3.6环境

430

240

7分2秒

243-尚硅谷-数据可视化-Superset安装

530

241

5分31秒

244-尚硅谷-数据可视化-Superset安装之初始化

490

242

6分20秒

245-尚硅谷-数据可视化-Superset安装之启动

400

243

9分52秒

246-尚硅谷-数据可视化-Superset安装之启停脚本

380

244

12分40秒

247-尚硅谷-数据可视化-Superset使用之对接数据源

450

245

13分39秒

248-尚硅谷-数据可视化-Superset使用之趋势图示例

780

246

7分29秒

249-尚硅谷-数据可视化-Superset使用之地图与饼状图示例

980

247

5分17秒

250-尚硅谷-数据可视化-Superset使用之编辑仪表盘

540

248

4分46秒

251-尚硅谷-即席查询-概述

370

249

4分42秒

252-尚硅谷-即席查询-Kylin概述

370

250

38分9秒

253-尚硅谷-即席查询-Kylin前置概念

310

251

12分46秒

254-尚硅谷-即席查询-Kylin基础架构

320

252

6分35秒

255-尚硅谷-即席查询-Kylin特点

310

253

14分12秒

256-尚硅谷-即席查询-Kylin安装之HBase部署

340

254

2分30秒

257-尚硅谷-即席查询-Kylin安装之环境变量准备

380

255

13分19秒

258-尚硅谷-即席查询-Kylin安装之兼容性问题说明

380

256

4分15秒

259-尚硅谷-即席查询-Kylin启动

440

257

30分54秒

260-尚硅谷-即席查询-Kylin使用之基础用法

360

258

21分49秒

261-尚硅谷-即席查询-Kylin使用之维度表重复key问题说明

380

259

8分29秒

262-尚硅谷-即席查询-Kylin使用之查询

390

260

12分39秒

263-尚硅谷-即席查询-Kylin使用之RestAPI使用概述

260

261

9分21秒

264-尚硅谷-即席查询-Kylin使用之每日定时构建脚本

440

262

6分42秒

265-尚硅谷-即席查询-Kylin原理之基础概念回顾

330

263

8分21秒

266-尚硅谷-即席查询-Kylin原理之Cube存储原理

480

264

15分2秒

267-尚硅谷-即席查询-Kylin原理之Cube构建原理

320

265

18分0秒

268-尚硅谷-即席查询-Kylin优化之衍生维度

400

266

13分24秒

269-尚硅谷-即席查询-Kylin优化之聚合组

340

267

15分23秒

270-尚硅谷-即席查询-Kylin优化之Rowkey调整

330

268

8分51秒

271-尚硅谷-即席查询-Kylin优化之并发粒度优化

370

269

7分13秒

272-尚硅谷-即席查询-KylinBI集成之JDBC

390

270

11分47秒

273-尚硅谷-即席查询-KylinBI集成之Zeppelin

390

271

25分6秒

274-尚硅谷-即席查询-Presto概述

340

272

23分45秒

275-尚硅谷-即席查询-Presto安装之Server部署

370

273

5分56秒

276-尚硅谷-即席查询-Presto安装之命令行客户端部署

340

274

8分54秒

277-尚硅谷-即席查询-Presto安装之LZO 压缩格式说明

320

275

8分14秒

278-尚硅谷-即席查询-Presto安装之可视化客户端部署

440

276

17分31秒

279-尚硅谷-即席查询-Presto使用注意事项

390

277

13分49秒

280-尚硅谷-集群监控-Zabbix概述

460

278

7分45秒

281-尚硅谷-集群监控-Zabbix安装之服务器环境准备

310

279

12分29秒

282-尚硅谷-集群监控-Zabbix安装之yum仓库配置

350

280

2分8秒

283-尚硅谷-集群监控-Zabbix安装之下载安装

380

281

10分9秒

284-尚硅谷-集群监控-Zabbix安装之修改配置文件

310

282

2分21秒

285-尚硅谷-集群监控-Zabbix启动

330

283

3分37秒

286-尚硅谷-集群监控-Zabbix安装之web配置

320

284

5分3秒

287-尚硅谷-集群监控-Zabbix使用之术语

400

285

7分17秒

288-尚硅谷-集群监控-Zabbix使用之创建主机

360

286

13分43秒

289-尚硅谷-集群监控-Zabbix使用之配置监控项

330

287

6分13秒

290-尚硅谷-集群监控-Zabbix使用之配置触发器

350

288

3分18秒

291-尚硅谷-集群监控-Zabbix使用之配置报警媒介

380

289

7分56秒

292-尚硅谷-集群监控-Zabbix使用之配置动作

320

290

2分12秒

293-尚硅谷-集群监控-Zabbix使用之测试

430

291

12分59秒

294-尚硅谷-集群监控-Zabbix使用之模板

390

151-尚硅谷-数仓搭建-DWD层业务表之拉链表制作过程概述

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐