文章/答案/技术大牛

发布

首页视频152-尚硅谷-数仓搭建-DWD层业务表之用户维度表(一)

152-尚硅谷-数仓搭建-DWD层业务表之用户维度表(一)

2022-12-022022-12-02 16:02:24播放40

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据电商数仓项目（含2.0、3.0版本）/尚硅谷数仓项目实战V3.0/视频/152-尚硅谷-数仓搭建-DWD层业务表之用户维度表(一).wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
拉链表的制作过程，在文档上给我们列出来的几个步骤啊，步骤零，初始化拉链表，这个已经标注了，是首次单独执行就行，对吧？那后边往下走，那呃，步骤一，那获取每天的变动数据，那再往下，呃，这个是合并，呃变动信息啊，就是把这个新的数据和老的数据进行合并呗，当然他这还是有临时表的，是不是先放到临时表啊，放临时表再怎么办？再把这个临时表当中的数据是不是再放回到真正拉链表啊，那刚才咱们其实也说了，是不是没必要加这个临时表啊，啊，其实没必要加啊，那文档上也有，咱们也不改了，要改的话，咱们要改东西太多了啊，咱们就呃这么做就行，这个也其实也费不了多长时间啊，来，咱们把这个步骤呢，先给它粘出来吧，那咱们照这个步骤去做一下啊。来，CTRLV，这是第一步，初始化拉链聊，来，咱们接着往下走。第二步来制作当日变动。
01:00
CTRLV。哎，刚刚。刚刚。刚刚啊来咱们下一步下步呢是合并变动信息啊。哎呀，点错了，能放在这儿。好，下一个最后一步啊，最后一步呢，是把这个临时表的数据放到真正的拉链表里。来，把这个拿过来。放在这里啊，大家应该都看到了啊，来，我们接着走。可以，我能把它打开了。来，咱们接着走啊，那这四个步骤是不是列在这儿了呀，那列在这儿呢，我们就呃照着这个步骤呢，咱们就去做一下啊，那现在呢，我们先做第一步就是这个所谓的初始化拉链表啊来，我们现在把这个先把拉链表这个界面语句先拿过来吧，咱们看看它长什么样子啊，拉链表长什么样。其实没什么新奇的，CTRLC打回来。CTRL位，其实这个拉链表呢，就跟我们MYSO当中啊，或者跟咱们ods层的那个用户表里边的字段是一样的，只不过就在它那个原有字段基础上，是不是再加俩字段呀，一个是开始，一个是结束啊，一个结束，然后呢，大家注意观察一下啊，咱们这个拉链表咱这儿分区了吗？
02:14
分分没分居。没有分区啊，它没有分区啊，那为什么这个拉链表在这儿咱们没有分区啊。为什么没有分，你看咱们企业边所有边是不是都分区了，就他没分区，嗯，他为什么不分区。是因为它数据量少吗？它不少，因为维度表，咱们之所以做拉链表，是不因为数据量大才做拉链表啊，它肯定数据量它它不小。为什么呀，为什么没有做拉，没有做分区啊。其实你得考虑一个问题啊，就是咱们得知道我们分区的主要目的是什么，我建一张表，我为啥要分区啊。其实主要目的就是因为如果说我这张表啊，我分区了，那然后你从这张表查数据的时候呢？哎，如果你以分区字段作为过滤条件，是不是那个过滤的效率是最高的呀，你不用全面扫描，是不是咱们分区的一个主要目的呀，对不对？那前面咱们之所以都按天分区，是因为我们整个这个数仓，我们是离线计算嘛，一天算一天的，那我按天分区是不是正合适啊，对吧？啊，但是这个拉链表，你想想拉链表咱们去使用它的时候，过滤条件一般情况下应该是什么呀？啊开始日期啊，什么大于，就是你那个某一，呃，开始日期小于等于某一个日期，并且结束日期大于等于某一个日期，对不对？你说这样的管理条件你咋分区啊？
03:36
没有办法分区。对不对啊啊，其实是基于什么呀，基于咱们这个，呃，这个拉链表的一个特点啊，由它导致的，咱们这个没有办法分区，其实你要真想分区的话也能分。啊，怎么分呢？咱们往另外一个角度考虑啊，那刚才咱们提到的说使用它的时候，过滤条件应该是啊，开始日期小于等于某个日期，然后呢，结束日期大于等于某个日期，对吧？这这是获取什么，这是获取历史上某一天的数据，咱是这么过滤，那我如果说获取什么呀，获取最新数据，那应该是什么呀。
04:08
是不是N等于999啊，对不对，那呃，其实我们更多的时候使用这个拉链表，我们可能获取最新数据要更多一些，对不对，因为咱们每天去重复计算的时候，是不是都是拿最新一天的数据啊，对不对啊，因为离线计算，每线计算线一天啊，每天都是最新一天，每天最其实获取最新一天这个场景要更多一些。啊，那所以说基于这一点考虑，那这张表咱们要非要分区的话，你可以分几个区啊。对，就分俩区啊，一个区域里边存什么数据？存n date等于9999的数据，另外一个区咱们存啥。存剩余的所有数据。能理解吧，那相当于这个9999这个分区，就是咱们的什么数据啊。最新数据啊，那它就是咱们的热点数据，相当于因为我这时候读它读的更多一些啊，你要硬要分，那这个拉链表就这么分就行啊，就这么分就行啊，当然在这呢，它没有分，没分咱们就就先不分了吧，啊先不分了啊啊，那这个建表语句咱们就介绍完了啊，那介绍完之后呢，咱们开始做我们的第一步就是所谓的初始化拉链表。
05:13
好，问一下啊，初始化拉链表，咱们在生产环境下应该怎么做？啊，怎么做这个初始化。怎么做呀？啊，是不是应该是使用。呃，使用这个数据库同步工具。啊，这个工具很多对吧，咱们用scoop或者用谁啊，或者用SCO，或者用那个带叉是不是都行啊，对吧，咱们之前讲过，那在这儿咱们用scoop呗，对不对，那使用scoop怎么做呀。啊。怎么做哎，单独执行哎一次啊这个哎数据的说叫做同步同步任务吧，单独执行一次同步任务。啊。
06:00
这个任务呢，我们需要实现什么样的功能啊，哎，将将什么将业务系统啊系统。中的啊，这个咱们这是什么表，是不是用户表啊，那咱们就用户表。用户表的什么全部数据？啊，一次性的。导入到这个拉链表里。来啊你。有中。这是我们生产方向，咱们应该做的，对不对啊，然后呢，你看一下咱们文档是怎么做的啊，文档这呢，这个没这么做啊，文档怎么做的。我等会出手拉的表直接怎么错的，你看一下。是不是他是从咱们这个ods层的user in for当中，把6月14号这个分区的数据查出来，然后呢，放到咱们这个拉链表里边来呀。啊，他为什么这么做啊，呃，这是因为呢，咱们现在呃这个教学环境呢，呃，因为咱们这个呃买soq当中，咱是不是只有一天数据啊，现在就一天6月14号的啊，这个6月14号的是不是全部都是6月14号的新增数据啊，啊都是新增，那所以说咱们往ods层user引这张表导出去的时候，咱们导的是什么，是新增级变化对不对？那所以说现在ods层user info这张表里边儿，6月14号的分区里边。
07:27
他的数据是不是就是我们买词Q当中的全部数据啊啊，那所以咱这儿呢，呃，就没有去那个写词库脚本，那咱们直接哎就从这儿导了一下，那这边呢，咱们就按照这个来吧，啊，咱们就不再去单独写一个S库，但是大家得知道啊，在生产环境下呢，咱们需要单独的去买四克龙倒一次，这个一定得记住啊，咱们这是因为这个相当于偷了个懒啊，但是你工作的时候不能偷懒啊，那生长环境这个是教学啊，咱们教学。这个school脚本应该大家写起来没问题啊，那个很简单啊，那教学环境啊，咱们这拖懒啊，CTRL位，那我们就是这么做的。
08:03
OK，那这个初始化导入呢，是不是把这做了之后，咱们相当于就完成了呀，这个初始化导入就完成了啊，那接下来呢，我们是制作这个变动数据啊，当时变动数据，那这个所谓的变动数据，这应该咱们是不是都不用做呀。对，咱们使用死库啊，每天去导那个用户表，咱们导的是不是就是新增级修改的数据，就是所谓的变动数据，对不对，所以说这个新增级变化据咱们现在在哪放着，就在我们ods层的user info当中放着。对不对。没错吧，啊，然后大家这块得搞清楚啊，那刚才咱们已经做了初始化了，初始化咱们是不是导了14号的数据了呀，对不对，那14号你做了数法导入之后，你还用导什么14的新能级变化吗。没了，因为你第一天是不是已经做了初始化导入了呀，对不对，你这个获取新增级变化应该从哪天开始获取啊。是不是应该是从第二天开始，那也就是咱们这儿应该时间来到哪一天才获取新能级变化呀，是不是应该来到了这个6月15号的时候啊，诶对吧，那个诶2020杠零六杠诶幺五啊，那咱们去获取这个一天的这个啊，就是咱们第一次去获取这个新增级变化，然后以后从6月15号开始呢，每天都是获取新增变化了啊好，那这个6月15号的新增级变化的数据呢，就在这张表15号的分区里边，那咱们这个有15号的数据的吗？还没有的啊，没有的啊行，咱们先知道怎么回事就可以啊好，那咱们这是怎么获取这个变动数据的呀，咱们是根据我们买搜索当中这个表的两个字段去获取的，对吧？一个字段是create time，它是不是获取新增，还有一个字段叫做oper time，它获取的是啥呀？是变动数据，一个新增一个变动。
09:51
对不对啊，那咱们这儿呢，非常幸运啊，我们的买搜狗当中，它就有这样的两个字段，我就能通过这俩字段去获取新增级变化。
10:00
但是有时候呢，我们诶到公司之后你会发现啊，假如说我们那个公司里边业务系统那个买车后数据库啊，他可能他设计的时候呢，诶并没有考虑到我们后期这个数据同步的问题，他可能根本就没有什么opera time。Create time一般是有的啊，创建时间肯定是有的，但是oper time呢，它可能就没有。啊，那没有的话，那是不是就不能通过这样的方式去获取新增及变动数据了呀，那新增我能获取，但是变动我是不是可能就获取不到了呀，对不对，那这个时候咱们怎么去找这个新增及变动数据呢？来看文档。这个获取新增变动的这个数据的方式呢，其实咱们是有很多的啊，是有很多的啊来咱们看第一种啊这个A，那我们买so的表里边是不是就有创建和变动时间这俩字段呀，啊非常幸运，我就能直接通过这俩字段去获取了吧？啊但是假如说你没有这个时间，没有时间，那我们就不能用它了，那也得用其他的方案了啊，比如说咱们这儿呢，有一个第二种方案。
11:06
电路方是什么呢？如果没有这个变动时间，我得怎么做呀，可以利用啊，第三方的数据库监控工具，比如说K，比如说maxwa啊，那这些东西都是什么呀，都是一些数据库的监控工具，它能监控什么呀？能够监控我监控我们这个买SQL数据库的，哎，数据的变化。而且是实时的监控，就像我们一样，是不是实时监控一个文件的这个数据的变化呀，那这个开和max war这些东西呢，它能干啥呀，它能够实时的监控，你买SQL里边一张表的数据变化能理解吧，只要变化我就采集到你这个变化，然后把变化呢给你写到哪去，它可以写到卡夫卡当中，可以对接卡夫卡，对接到卡夫卡，那咱们是不是就可以把卡夫卡的数据对接到HT上啊，那这样一来是不是也能拿到每天的。变化数据啊，而且这个是什么呢？是实时的吧，这是实时的啊实时的啊，那这个东西其实原理很简单，大家应该都学过MYS买S克，咱们有一个概念叫补从复制对不对。
12:10
啊，还有印象吗？咱们学没学主动复制。有点印象对吧，那买SQ呢，我们这个主动复制是干什么用的呀。主动。不知。啊，其实主动复制更多是为了干什么，是为了缓解咱们这个数据库的读写压力，对吧？那假如说我们现在呢，我们业务系统当中，比如说只有一个MYSQL数据库只有一个，那是不是我们客户端的所有的读写请求全部都发往这一台节点呀。对不对啊，那这样一来，那我这个数据量用户量大了之后呢，这个诶服务器的压力可能比较大，那比较大啊，那大可以试想一个这样的问题啊，你说我们这个读写请求当中啊，是读的更多还是写的更多呀。其实读的更多啊。你就以咱们电商为例啊，以电商为例，那电商什么时候读，我只要去你这个，呃，APP里边，我去查这个商品，你这是不是都会读，那什么时候才会写呀，哎注册下单加购车是不是才会写，那相比之下肯定是是不是读的要多呀，对不对，所以说我们买S呢，有一个这样的机制，就是所谓的读写分离，用什么呀，用主从复制去做，那我可以给买S呢，哎给他给他设成一个主，然后呢，给他再配几个从。
13:20
啊，叫做slave master slave，然后呢，Slave干什么会从master节点呢，去同步数据啊，那这样一来的话，我们就可以怎么做了啊，就可以这样去做了，所有的读请求全部发往谁slave。啊，全发此类，而且此六书可以有多个呀，是不是多个可以分单独的压力，所他写请求呢，写到一台节点，写到master啊，因为你你写只往一台里边写，是不是能保证我们这个数据之间的一致性啊，对不对，是这样的啊啊那这就是咱们这个主从复制它的这个作用，那当然在这儿呢，呃，我们这个开呢啊，并不是为了做什么所谓的读写分离，咱们这只是为的同步数据，那这个开其实底层原理就是啥啊，给大家说一下，底层原理就是开，它其实会伪装成一个。
14:06
My circle的从。啊，它就是又伪装成一个slave，这个slave会怎么样，会从master这个主里边去同步数据吧，对不对啊，那这样一来的话，是不是里边只要有什么数据的变动，这个can是不是都能获取到啊，对不对，那获取到之后，把变动数据写到卡夫卡当中，那我们就能够获取变动数据了。啊，那当然这个能不能获取我们所需要的这个变动数据啊，能啊，这也标了麻烦，确实麻烦啊，你需要还得再搭建一个开，还得再怎么办，还得再往卡夫卡里写，再从卡夫卡往咱们的这个HD上写，相对来说要麻烦一些，但是这个呢，其实呃，还有一个优点，什么优点呀。它是实时监控的，对不对啊，咱们库采集数据是实时的吗？不是实时的，所以说假如说我们实时分析啊，大家后续做实时这个系统的时候，实时项目的时候啊，我也要分析买SQ当中的数据呢啊，那这时候你获取监控买SQ，你还能用S库op去导数据吗？就不能的，你只能用谁啊。
15:07
只能用开，或者用什么maxwa这些工具，它们的原理都差不多啊，是这样的啊，所以大家这个东西呢，也要了解一下，了解一下啊，就是即便说没有这个字段，我们也是有办法去获取变动数据的啊，也是有办法的啊好，这个咱们搞清楚，完了之后咱们再往下看啊，还有其他的一些手段，当然这个下边这个手段就嗯，那就不太靠谱了啊啊一般咱们要做的话就是前两种啊，后边两种咱们简单看一下是怎么去做吧，这可以怎么做。逐行对比，前后两天的数据逐行对比啊，咱们逐行对比啊，你说咱们逐行对比，比如说啊，我这个每天都从my sol当中，咱们去怎么做呀啊去导一份全量，每天都导一份全量啊，当然呢，你不用把前面的全全保留下来，你比如说我只保留前一天就够了啊，比如说14号的时候，我把14号的倒一份是不是拿过来了，我留着它，然后到了15号呢。是不是把十五行的这个数据再导一份过来呀，然后两边是不是肯定不一样，对不对，逐行对比是不是能找到那个新增级变化的呀，啊是能找到的啊，然后找到之后呢，那怎么办？是不是14号就没有没有价值了，删掉啊然后呢，到了16号这个15号删不删。
16:14
不能删，你得留着，你得留着啊，到了16号，再把16号的拿过来，再跟15号的做一个逐行对比，是不是也能拿到今天的变动数据啊啊这个就是太笨了，这个方法啊，咱们不这么做，一般情况下啊，这也标了啊，Low就标low，那再有一个呢。就是要求咱们那个业务数据库，就要求咱们业务系统去给咱们提供这个变动的流水啊，这个后边写了靠人品和颜值对吧？啊就是说你让他给你提供，但是人家那边呢，出于这个业务的考虑啊，出于他那个业务系统他那个性能的考虑，可能这个呃变动流水是不好给你提供的，那所以说呢，这个呃就更不太靠谱了啊，就不一定你跟他要，他可能说提供不了啊，你自己想办法去解决吧啊所以这个方法也不靠谱啊，那呃，既然咱们大家呢，这个呃，人品跟颜值呢，呃人品应该都还好，但是颜值不咋地是吧，那所以说这种方法咱们就忽略不计了啊呃，靠谱的东西呢，还是前面那俩啊，咱们把这俩搞清楚就行了啊啊行，这就是咱们获取当日变动数据的这个方式啊，那当然咱们这儿呢，直接用这俩字段获取的啊啊，那这块咱们搞清楚，然后再往下呢，实际上就正式进入到我们这个呃，拉链表的最重要的一步了，对吧，最重要的一步就是干啥，就是合并弄信息对不对。
17:31
这是咱们这个拉链表的核心啊，其实这呢就是写circle了啊写circle了，那这一步呢，我们一会再做吧，咱们先下课休息会啊，来录一下视频。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷数仓项目实战V3.0

（149/291）

7分1秒

001-尚硅谷-数据仓库-课程介绍

390

19分57秒

002-尚硅谷-数据仓库-项目概述

350

15分4秒

003-尚硅谷-项目分析-需求分析

300

17分26秒

004-尚硅谷-项目分析-技术选型

420

11分48秒

005-尚硅谷-项目分析-数据流程设计图

370

13分25秒

006-尚硅谷-项目分析-框架版本选择

380

10分2秒

007-尚硅谷-项目分析-服务器选型

270

11分59秒

008-尚硅谷-项目分析-集群规模规划

370

20分1秒

009-尚硅谷-日志采集-埋点目标数据

560

9分50秒

010-尚硅谷-日志采集-主流埋点方式(了解)

460

12分31秒

011-尚硅谷-日志采集-日志数据结构

400

4分42秒

012-尚硅谷-日志采集-埋点数据上报时机

340

14分25秒

013-尚硅谷-日志采集-服务器准备

420

8分40秒

017-尚硅谷-日志采集-JDK配置及免密配置

370

1分48秒

018-尚硅谷-日志采集-JDK分发

370

7分30秒

019-尚硅谷-日志采集-Linux环境变量说明

420

10分24秒

020-尚硅谷-日志采集-模拟生成日志

380

7分37秒

021-尚硅谷-日志采集-模拟日志脚本

380

5分25秒

022-尚硅谷-日志采集-Hadoop部署之环境变量配置

340

19分0秒

023-尚硅谷-日志采集-Hadoop部署之核心配置

520

12分27秒

024-尚硅谷-日志采集-Hadoop部署之其余配置

370

2分43秒

025-尚硅谷-日志采集-Hadoop部署之历史服务器和日志聚集配置

390

4分23秒

026-尚硅谷-日志采集-Hadoop部署之启动及测试

470

9分17秒

027-尚硅谷-日志采集-Hadoop项目经验之多目录存储

360

8分27秒

028-尚硅谷-日志采集-Hadoop项目经验之数据均衡

300

7分30秒

029-尚硅谷-日志采集-Hadoop项目经验之LZO压缩配置

330

5分21秒

030-尚硅谷-日志采集-Hadoop项目经验之LZO压缩测试

380

9分0秒

031-尚硅谷-日志采集-Hadoop项目经验之LZO切片说明

340

8分39秒

032-尚硅谷-日志采集-Hadoop项目经验之参数调优

290

27分28秒

033-尚硅谷-日志采集-Hadoop项目经验之基准测试

360

7分39秒

034-尚硅谷-日志采集-通道设计规划

440

9分38秒

035-尚硅谷-日志采集-Zookeeper部署

270

10分52秒

036-尚硅谷-日志采集-Kafka安装

360

20分5秒

037-尚硅谷-日志采集-Kafka常用脚本

340

5分16秒

038-尚硅谷-日志采集-Kafka常用脚本补充

240

12分51秒

039-尚硅谷-日志采集-Kafka压力测试

330

9分17秒

040-尚硅谷-日志采集-Kafka机器数量与分区数量计算

430

4分31秒

041-尚硅谷-日志采集-Flume安装

400

5分21秒

042-尚硅谷-日志采集-日志采集配置方案对比

340

8分42秒

043-尚硅谷-日志采集-监控日志Flume组件选择

420

23分13秒

044-尚硅谷-日志采集-监控日志Flume配置文件

340

17分57秒

045-尚硅谷-日志采集-监控日志Flume拦截器编码

430

12分7秒

046-尚硅谷-日志采集-监控日志Flume测试

400

28分24秒

047-尚硅谷-日志采集-Flume启停脚本

360

10分31秒

048-尚硅谷-日志采集-消费KafkaFlume功能分析

340

2分18秒

049-尚硅谷-日志采集-消费KafkaFlume中KafkaChannel注意事项

420

37分35秒

050-尚硅谷-日志采集-消费KafkaFlume配置文件

380

9分2秒

051-尚硅谷-日志采集-消费KafkaFlume时间戳拦截器

440

9分26秒

052-尚硅谷-日志采集-消费KafkaFlume测试

390

1分21秒

053-尚硅谷-日志采集-消费KafkaFlume启停脚本

390

4分38秒

054-尚硅谷-日志采集-消费KafkaFlume内存调整

320

3分23秒

055-尚硅谷-日志采集-小结

310

12分12秒

056-尚硅谷-业务数据采集-电商系统概述

370

7分7秒

057-尚硅谷-业务数据采集-电商系统基本概念

340

7分44秒

058-尚硅谷-业务数据采集-电商系统表结构说明

370

25分1秒

059-尚硅谷-业务数据采集-电商系统核心表概述

340

15分55秒

060-尚硅谷-业务数据采集-电商系统表结构讲解

410

7分58秒

061-尚硅谷-业务数据采集-电商系统表字段说明

380

9分27秒

062-尚硅谷-业务数据采集-模拟数据生成之mysql部署

370

3分40秒

063-尚硅谷-业务数据采集-模拟数据生成之建表

350

10分23秒

064-尚硅谷-业务数据采集-模拟数据生成之EZDM使用简明介绍

410

9分39秒

065-尚硅谷-业务数据采集-模拟数据生成之测试

470

7分11秒

066-尚硅谷-业务数据采集-Sqoop概述

400

7分12秒

067-尚硅谷-业务数据采集-Sqoop安装

370

4分53秒

068-尚硅谷-业务数据采集-Sqoop测试

360

26分13秒

069-尚硅谷-业务数据采集-Sqoop基础使用

440

7分4秒

070-尚硅谷-业务数据采集-Sqoop使用之SQL形式导入

350

23分40秒

071-尚硅谷-业务数据采集-数据同步策略

340

14分33秒

072-尚硅谷-业务数据采集-业务数据表同步策略划分

360

40分18秒

073-尚硅谷-业务数据采集-Sqoop导入脚本之基础说明

310

7分33秒

074-尚硅谷-业务数据采集-Sqoop导入脚本之同步策略说明

450

2分40秒

075-尚硅谷-业务数据采集-Sqoop导入脚本之测试

350

1分35秒

076-尚硅谷-业务数据采集-Sqoop导入脚本之存在问题分析

380

3分57秒

077-尚硅谷-业务数据采集-Sqoop导入脚本之数据验证

420

34分16秒

078-尚硅谷-数仓建模理论-分层概述

440

5分48秒

079-尚硅谷-数仓建模理论-数据集市

300

7分43秒

080-尚硅谷-数仓建模理论-命名规范

390

17分1秒

081-尚硅谷-数仓建模理论-范式理论之概述

370

8分27秒

082-尚硅谷-数仓建模理论-范式理论之函数依赖

380

13分9秒

083-尚硅谷-数仓建模理论-范式理论之三范式

420

12分35秒

084-尚硅谷-数仓建模理论-OLTP与OLAP概述

420

18分6秒

085-尚硅谷-数仓建模理论-关系建模与维度建模

520

15分2秒

086-尚硅谷-数仓建模理论-维度模型之事实表与维度表

500

17分0秒

087-尚硅谷-数仓建模理论-维度模型之事实表分类

380

9分27秒

088-尚硅谷-数仓建模理论-维度模型之模型分类

490

13分41秒

089-尚硅谷-数仓建模理论-数仓分层模型之整体概述

380

4分33秒

090-尚硅谷-数仓建模理论-数仓分层模型之ODS层

380

26分1秒

091-尚硅谷-数仓建模理论-数仓分层模型之DWD层

310

30分51秒

092-尚硅谷-数仓建模理论-数仓分层模型之DWD层维度建模演示

400

11分2秒

093-尚硅谷-数仓建模理论-数仓分层模型之DWS层与DWT层

370

2分10秒

094-尚硅谷-数仓建模理论-数仓分层模型之建模驱动

430

10分34秒

095-尚硅谷-数仓环境准备-Hive安装

400

4分30秒

096-尚硅谷-数仓环境准备-Hive引擎说明

410

8分35秒

097-尚硅谷-数仓环境准备-框架兼容性问题说明

330

23分32秒

098-尚硅谷-数仓环境准备-HiveOnSpark配置

590

10分7秒

099-尚硅谷-数仓环境准备-HiveOnSpark测试

480

17分14秒

100-尚硅谷-数仓环境准备-Yarn容量调度器之并发度问题演示

400

19分38秒

101-尚硅谷-数仓环境准备-Yarn容量调度器之多队列配置

350

8分21秒

102-尚硅谷-数仓环境准备-Yarn容量调度器之提交任务指定队列

380

100

8分24秒

103-尚硅谷-数仓环境准备-DataGrip使用介绍

380

101

16分43秒

104-尚硅谷-数仓环境准备-新数据准备

350

102

11分4秒

105-尚硅谷-数仓搭建-ODS层日志表之建表语句

380

103

5分32秒

106-尚硅谷-数仓搭建-ODS层日志表之数据装载

360

104

7分58秒

107-尚硅谷-数仓搭建-ODS层日志表之装载脚本

330

105

4分33秒

108-尚硅谷-数仓搭建-扩展之Shell脚本引号总结

370

106

6分18秒

109-尚硅谷-数仓搭建-ODS层业务表之建表语句

340

107

4分28秒

110-尚硅谷-数仓搭建-ODS层业务表之装载脚本

420

108

8分8秒

111-尚硅谷-数仓搭建-DWD层日志表之数据结构回顾

400

109

7分34秒

112-尚硅谷-数仓搭建-DWD层日志表之Hive解析JSON函数说明

450

110

6分3秒

113-尚硅谷-数仓搭建-DWD层日志表之日志解析思路分析

340

111

7分26秒

114-尚硅谷-数仓搭建-DWD层日志表之启动表建表语句

330

112

9分0秒

115-尚硅谷-数仓搭建-DWD层日志表之启动表数据装载

360

113

4分28秒

116-尚硅谷-数仓搭建-DWD层日志表之页面表

380

114

9分14秒

117-尚硅谷-数仓搭建-DWD层日志表之动作表解析思路

360

115

5分42秒

118-尚硅谷-数仓搭建-回顾之explode函数使用说明

340

116

3分16秒

119-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数设计

270

117

11分16秒

120-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数说明

420

118

27分6秒

121-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数编写(一)

380

119

8分49秒

122-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数编写(二)

390

120

3分38秒

123-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数注意事项

300

121

6分10秒

124-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数创建

360

122

8分6秒

125-尚硅谷-数仓搭建-DWD层日志表之动作表数据装载

420

123

4分47秒

126-尚硅谷-数仓搭建-DWD层日志表之曝光表

450

124

9分8秒

127-尚硅谷-数仓搭建-DWD层日志表之错误表

400

125

9分57秒

128-尚硅谷-数仓搭建-DWD层数据装载之lzo索引文件识别问题

340

126

5分46秒

129-尚硅谷-数仓搭建-DWD层日志表之数据装载脚本

370

127

4分54秒

130-尚硅谷-数仓搭建-DWD层业务表之维度模型概述

340

128

11分5秒

131-尚硅谷-数仓搭建-DWD层业务表之商品维度表

330

129

1分50秒

132-尚硅谷-数仓搭建-DWD层业务表之优惠券维度表

430

130

11分44秒

133-尚硅谷-数仓搭建-DWD层业务表之活动维度表

350

131

3分40秒

134-尚硅谷-数仓搭建-DWD层业务表之地区维度表

450

132

16分34秒

135-尚硅谷-数仓搭建-DWD层业务表之时间维度表

340

133

19分22秒

136-尚硅谷-数仓搭建-DWD层业务表之支付事实表

380

134

7分22秒

137-尚硅谷-数仓搭建-DWD层业务表之退款事实表

300

135

9分45秒

138-尚硅谷-数仓搭建-DWD层业务表之评价事实表

390

136

7分8秒

139-尚硅谷-数仓搭建-DWD层业务表之订单明细实表建表语句

380

137

14分1秒

140-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(一)

310

138

9分26秒

141-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(二)

300

139

10分46秒

142-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(三)

290

140

7分56秒

143-尚硅谷-数仓搭建-DWD层业务表之加购与收藏事实表

390

141

10分16秒

144-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表分析

390

142

7分48秒

145-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表分区规划

380

143

9分35秒

146-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表数据装载思路

320

144

16分4秒

147-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表数据装载

330

145

9分53秒

148-尚硅谷-数仓搭建-DWD层业务表之订单事实表建表语句

430

146

43分22秒

149-尚硅谷-数仓搭建-DWD层业务表之订单事实表数据装载

340

147

17分10秒

150-尚硅谷-数仓搭建-DWD层业务表之拉链表概述

330

148

15分19秒

151-尚硅谷-数仓搭建-DWD层业务表之拉链表制作过程概述

350

149

17分40秒

152-尚硅谷-数仓搭建-DWD层业务表之用户维度表(一)

400

150

19分44秒

153-尚硅谷-数仓搭建-DWD层业务表之用户维度表(二)

390

151

8分10秒

154-尚硅谷-数仓搭建-DWD层业务表之数据装载脚本

340

152

28分38秒

155-尚硅谷-数仓搭建-DWS&DWT层之业务术语

360

153

14分11秒

156-尚硅谷-数仓搭建-DWS&DWT层之日期函数

380

154

7分22秒

157-尚硅谷-数仓搭建-DWS&DWT层之复杂数据类型使用说明

330

155

16分3秒

158-尚硅谷-数仓搭建-DWS层之会员主题每日汇总表建表语句

400

156

47分40秒

159-尚硅谷-数仓搭建-DWS层之会员主题每日汇总表数据装载

270

157

24分16秒

160-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表建表语句

310

158

6分37秒

161-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载思路分析

390

159

14分46秒

162-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载(一)

390

160

29分43秒

163-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载(二)

360

161

5分43秒

164-尚硅谷-数仓搭建-DWS层之设备主题每日汇总表建表语句

330

162

13分7秒

165-尚硅谷-数仓搭建-DWS层之设备主题每日汇总表数据装载

370

163

6分35秒

166-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表建表语句

340

164

13分45秒

167-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表初次装载说明

390

165

9分28秒

168-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表数据装载

480

166

1分20秒

169-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表建表语句

370

167

23分6秒

170-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(一)

390

168

24分27秒

171-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(二)

430

169

9分25秒

172-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(二)

320

170

12分3秒

173-尚硅谷-数仓搭建-DWT层之商品主题累积汇总表

400

171

20分48秒

174-尚硅谷-数仓搭建-DWS&DWT层之活动主题汇总表

430

172

16分29秒

175-尚硅谷-数仓搭建-DWS&DWT层之地区主题汇总表

430

173

7分5秒

176-尚硅谷-数仓搭建-DWS&DWT层之数据装载脚本

401

174

45分43秒

177-尚硅谷-数仓需求-设备主题之活跃设备数

350

175

4分36秒

178-尚硅谷-数仓需求-设备主题之新增&沉默&流失需求说明

330

176

6分13秒

179-尚硅谷-数仓需求-设备主题之新增设备数需求讲解

260

177

4分9秒

180-尚硅谷-数仓需求-设备主题之沉默用户数需求讲解

380

178

2分51秒

181-尚硅谷-数仓需求-设备主题之流失用户数需求讲解

370

179

8分5秒

182-尚硅谷-数仓需求-设备主题之留存率需求说明

430

180

2分2秒

183-尚硅谷-数仓需求-设备主题之回流用户数需求说明(一)

430

181

2分9秒

184-尚硅谷-数仓需求-设备主题之回流用户数需求说明(二)

400

182

1分57秒

185-尚硅谷-数仓需求-设备主题之最近三周连续活跃用户数需求说明

390

183

2分15秒

186-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求说明

360

184

16分33秒

187-尚硅谷-数仓需求-设备主题之连续三周活跃需求讲解(思路一)

420

185

8分26秒

188-尚硅谷-数仓需求-设备主题之连续三周活跃需求讲解(思路二)

330

186

14分24秒

189-尚硅谷-数仓需求-设备主题之回流用户数需求讲解

370

187

21分0秒

190-尚硅谷-数仓需求-设备主题之留存率需求讲解(思路一)

410

188

9分28秒

191-尚硅谷-数仓需求-设备主题之留存率需求讲解(思路二)

410

189

20分19秒

192-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求讲解(思路一)

350

190

13分4秒

193-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求讲解(思路二)

330

191

4分44秒

194-尚硅谷-数仓需求-会员主题之会员信息统计需求说明

370

192

5分15秒

195-尚硅谷-数仓需求-会员主题之漏斗分析需求说明

390

193

1分51秒

196-尚硅谷-数仓需求-商品主题之商品个数需求说明

340

194

10分1秒

197-尚硅谷-数仓需求-会员主题之会员信息统计需求讲解

330

195

21分8秒

198-尚硅谷-数仓需求-会员主题之漏斗分析需求讲解(思路一)

370

196

6分16秒

199-尚硅谷-数仓需求-会员主题之漏斗分析需求讲解(思路二)

270

197

5分51秒

200-尚硅谷-数仓需求-商品主题之商品个数需求讲解

310

198

8分5秒

201-尚硅谷-数仓需求-商品主题之全局TopN需求说明

380

199

2分45秒

202-尚硅谷-数仓需求-商品主题之分组TopN需求说明

390

200

4分28秒

203-尚硅谷-数仓需求-商品主题之销量排行需求讲解

330

201

3分21秒

204-尚硅谷-数仓需求-商品主题之退款率排行需求讲解

390

202

2分44秒

205-尚硅谷-数仓需求-商品主题之差评率排行需求讲解

360

203

10分57秒

206-尚硅谷-数仓需求-商品主题之分组TopN需求讲解

330

204

7分32秒

207-尚硅谷-数仓需求-营销主题之下单&支付统计需求说明

350

205

9分14秒

208-尚硅谷-数仓需求-营销主题之品怕复购率需求说明

380

206

3分44秒

209-尚硅谷-数仓需求-营销主题之下单统计需求讲解

370

207

11分45秒

210-尚硅谷-数仓需求-营销主题之支付统计需求讲解

350

208

16分54秒

211-尚硅谷-数仓需求-营销主题之复购率需求讲解(思路一)

370

209

9分18秒

212-尚硅谷-数仓需求-营销主题之复购率需求讲解(思路二)

460

210

7分48秒

213-尚硅谷-数仓需求-ADS层数据导入脚本

400

211

14分47秒

214-尚硅谷-全流程调度-工作流程概述

360

212

11分26秒

215-尚硅谷-全流程调度-调度系统概述

400

213

7分54秒

216-尚硅谷-全流程调度-Azkaban部署模式概述

380

214

2分57秒

217-尚硅谷-全流程调度-Azkaban安装之安装包准备

380

215

5分53秒

218-尚硅谷-全流程调度-Azkaban安装之数据库准备

340

216

11分25秒

219-尚硅谷-全流程调度-Azkaban安装之Exec部署

400

217

10分6秒

220-尚硅谷-全流程调度-Azkaban安装之Web部署

470

218

7分53秒

221-尚硅谷-全流程调度-Azkaban使用之入门案例

350

219

5分30秒

222-尚硅谷-全流程调度-Azkaban使用之工作流程配置文件说明

390

220

11分22秒

223-尚硅谷-全流程调度-Azkaban使用之Yaml文件格式概述

390

221

6分34秒

224-尚硅谷-全流程调度-Azkaban使用之任务依赖配置

420

222

4分23秒

225-尚硅谷-全流程调度-Azkaban使用之自动失败重试

380

223

3分56秒

226-尚硅谷-全流程调度-Azkaban使用之手动失败重试

390

224

6分57秒

227-尚硅谷-全流程调度-Azkaban使用之定时调度

410

225

9分35秒

228-尚硅谷-全流程调度-Azkaban使用之邮件配置

470

226

4分35秒

229-尚硅谷-全流程调度-Azkaban使用之邮件通知演示

310

227

5分14秒

230-尚硅谷-全流程调度-实操之Sqoop导出功能说明

440

228

15分3秒

231-尚硅谷-全流程调度-实操之MySQL建库建表

330

229

28分36秒

232-尚硅谷-全流程调度-实操之Sqoop导出脚本

380

230

6分58秒

233-尚硅谷-全流程调度-实操之新数据准备

360

231

7分13秒

234-尚硅谷-全流程调度-实操之Azkaban启停脚本

370

232

11分9秒

235-尚硅谷-全流程调度-实操之Azkaban工作流程配置文件编写

360

233

5分22秒

236-尚硅谷-全流程调度-实操之Azkaban工作流传参说明

440

234

9分34秒

237-尚硅谷-全流程调度-实操之Azkaban全流程调度演示

360

235

8分16秒

238-尚硅谷-全流程调度-实操之Azkaban问题总结

360

236

4分45秒

239-尚硅谷-数据可视化-概述

450

237

6分22秒

240-尚硅谷-数据可视化-Superset概述

370

238

15分56秒

241-尚硅谷-数据可视化-Superset安装之Miniconda部署

520

239

9分43秒

242-尚硅谷-数据可视化-Superset安装之准备Python3.6环境

430

240

7分2秒

243-尚硅谷-数据可视化-Superset安装

530

241

5分31秒

244-尚硅谷-数据可视化-Superset安装之初始化

490

242

6分20秒

245-尚硅谷-数据可视化-Superset安装之启动

400

243

9分52秒

246-尚硅谷-数据可视化-Superset安装之启停脚本

380

244

12分40秒

247-尚硅谷-数据可视化-Superset使用之对接数据源

450

245

13分39秒

248-尚硅谷-数据可视化-Superset使用之趋势图示例

780

246

7分29秒

249-尚硅谷-数据可视化-Superset使用之地图与饼状图示例

980

247

5分17秒

250-尚硅谷-数据可视化-Superset使用之编辑仪表盘

540

248

4分46秒

251-尚硅谷-即席查询-概述

370

249

4分42秒

252-尚硅谷-即席查询-Kylin概述

370

250

38分9秒

253-尚硅谷-即席查询-Kylin前置概念

310

251

12分46秒

254-尚硅谷-即席查询-Kylin基础架构

320

252

6分35秒

255-尚硅谷-即席查询-Kylin特点

310

253

14分12秒

256-尚硅谷-即席查询-Kylin安装之HBase部署

340

254

2分30秒

257-尚硅谷-即席查询-Kylin安装之环境变量准备

380

255

13分19秒

258-尚硅谷-即席查询-Kylin安装之兼容性问题说明

380

256

4分15秒

259-尚硅谷-即席查询-Kylin启动

440

257

30分54秒

260-尚硅谷-即席查询-Kylin使用之基础用法

360

258

21分49秒

261-尚硅谷-即席查询-Kylin使用之维度表重复key问题说明

380

259

8分29秒

262-尚硅谷-即席查询-Kylin使用之查询

390

260

12分39秒

263-尚硅谷-即席查询-Kylin使用之RestAPI使用概述

260

261

9分21秒

264-尚硅谷-即席查询-Kylin使用之每日定时构建脚本

440

262

6分42秒

265-尚硅谷-即席查询-Kylin原理之基础概念回顾

330

263

8分21秒

266-尚硅谷-即席查询-Kylin原理之Cube存储原理

480

264

15分2秒

267-尚硅谷-即席查询-Kylin原理之Cube构建原理

320

265

18分0秒

268-尚硅谷-即席查询-Kylin优化之衍生维度

400

266

13分24秒

269-尚硅谷-即席查询-Kylin优化之聚合组

340

267

15分23秒

270-尚硅谷-即席查询-Kylin优化之Rowkey调整

330

268

8分51秒

271-尚硅谷-即席查询-Kylin优化之并发粒度优化

370

269

7分13秒

272-尚硅谷-即席查询-KylinBI集成之JDBC

390

270

11分47秒

273-尚硅谷-即席查询-KylinBI集成之Zeppelin

390

271

25分6秒

274-尚硅谷-即席查询-Presto概述

340

272

23分45秒

275-尚硅谷-即席查询-Presto安装之Server部署

370

273

5分56秒

276-尚硅谷-即席查询-Presto安装之命令行客户端部署

340

274

8分54秒

277-尚硅谷-即席查询-Presto安装之LZO 压缩格式说明

320

275

8分14秒

278-尚硅谷-即席查询-Presto安装之可视化客户端部署

440

276

17分31秒

279-尚硅谷-即席查询-Presto使用注意事项

390

277

13分49秒

280-尚硅谷-集群监控-Zabbix概述

460

278

7分45秒

281-尚硅谷-集群监控-Zabbix安装之服务器环境准备

310

279

12分29秒

282-尚硅谷-集群监控-Zabbix安装之yum仓库配置

350

280

2分8秒

283-尚硅谷-集群监控-Zabbix安装之下载安装

380

281

10分9秒

284-尚硅谷-集群监控-Zabbix安装之修改配置文件

310

282

2分21秒

285-尚硅谷-集群监控-Zabbix启动

330

283

3分37秒

286-尚硅谷-集群监控-Zabbix安装之web配置

320

284

5分3秒

287-尚硅谷-集群监控-Zabbix使用之术语

400

285

7分17秒

288-尚硅谷-集群监控-Zabbix使用之创建主机

360

286

13分43秒

289-尚硅谷-集群监控-Zabbix使用之配置监控项

330

287

6分13秒

290-尚硅谷-集群监控-Zabbix使用之配置触发器

350

288

3分18秒

291-尚硅谷-集群监控-Zabbix使用之配置报警媒介

380

289

7分56秒

292-尚硅谷-集群监控-Zabbix使用之配置动作

320

290

2分12秒

293-尚硅谷-集群监控-Zabbix使用之测试

430

291

12分59秒

294-尚硅谷-集群监控-Zabbix使用之模板

390

152-尚硅谷-数仓搭建-DWD层业务表之用户维度表(一)

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐