文章/答案/技术大牛

发布

首页视频192-尚硅谷-数仓搭建-ADS层访客统计需求讲解(下)

192-尚硅谷-数仓搭建-ADS层访客统计需求讲解(下)

2022-12-022022-12-02 16:02:26播放35

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据项目之尚品汇（电商数仓4.0）/视频/192-尚硅谷-数仓搭建-ADS层访客统计需求讲解(下).mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那上一节呢，我们已经把第一个需求的核心指标都计算出来了，没错吧，那接下来我们把这个circle执行一下，看一下最终的结果。好，结果已经出来了啊，大家注意观察啊，那这儿是不是只有一行数据啊？啊，为啥只有一行啊，那大家要知道啊，这是针对于最近一日的全部访客的一个统一的汇总结果啊，咱们是没有考虑维度字段的，所以这个结果呢，就只有一行啊那接下来呢，我们就需要把维度字段考虑进去了啊，那咱的维度字段还记得有啥吗？啊，在这儿是不是有一个easy new，有一个recent days，有一个channel啊，对吧？那我们应该怎样把这些维度字段考虑进去呢？啊，让咱之前是分析过的对不对啊，咱们怎么说呢？我们说只需要在这个统一的汇总结果的基础之上，是不是加上一个分组就可以了，那具体应该如何操作呢？啊，那接下来我给大家演示一下啊，咱先从China这个字段开始，因为它相对来说更简单一些啊好，因为我们最终要统计的是每个拆的各项指标，那所以说在最终的结果当中，是不是得包含拆字段呀，对吧？啊，那当然呢，这儿要享有拆，那下边咱是必须得分组才可以。
01:09
没错吧，那所以在这儿我们需要加上一个格Y啊，好，然后大家要注意了啊，这儿我们要想对拆进行分组啊，那T3这个子查询当中是不是就得包含拆字段才行啊，没错吧，那所以说我们往上走找到T3子查询啊，也就在这儿呢，咱就需要有拆字段才可以。没错吧，然后大家又要注意了啊，T3里边要想有China，那T2里边是不是也得有China啊，没错吧，因为T3的字段是从T2这个子查询里边选择出来的啊，那也是这个位置，咱是不是得包含拆啊？然后还有一个小细节一定要注意一下啊，我们从T2子查询里边去选择字段的时候，是不是进行了分组啊？没错吧，那所以说诶这儿咱要想选channel，那这个位置是不是得按照分组才行，那所以在这儿呢，我们也需要加上一个channel字段啊，OK，那我们继续往下进行啊，那T2里边要想包含channel啊，那咱的T1里边是不是也得有channel才行，那所以在这儿呢，我们也需要把这个channel选择出来。
02:06
啊，OK，那到现在为止，咱这个拆字段呢，才算是加上了啊，那现在我们把这个circle执行一下，看一下最终的结果是什么样的回车。好，大家注意观察一下啊，现在咱们得到的结果是不是就是诶每个channel的各项指标了，那OK channel这个维度咱就处理完了，那接下来呢，我们继续处理下一个维度啊，那下一个呢，来咱处理e new这个字段啊，OK，一字new咱们还记得是啥吧？是不是新老访客的标识啊，没错吧？那我们也按照同样的方式去处理一下啊，那首先我们期望在最终的结果当中包含一字六字段，没错吧？啊，那这儿要想包含一字六字段，那下边咱是不是同样需要对其进行分组的处理？没错吧，但是这儿咱们要想对一字new分组，那T3这个子查询当中是不是就得包含一字new字段呀，没错吧，那接下来我们找到T3的子查询啊，也就是这个位置对吧？在这儿呢，我们给它加上一个一字六。
03:01
那当然T3里边要想包含一字字段，那就得保证哪也得有啊，是不是T2里边也得有E字new字段呀，对吧？也是在这个位置呢，我们也需要把一字new给它选择出来啊，那当然还是要注意这个小细节啊，咱们从T2这个子查询里边选择字段的时候呢，是不是进行了分组啊，对吧？那在这儿呢，我们需要把这个一字六诶也进行分组处理啊，好了，那我们继续往进行啊，那T2里边要想包含E字news是，那T1里边是不是就得有E字new啊。没错吧，那所以在这儿呢，我们是不是也要选择一个一字拗出来，哎，那这样一来，咱这个一字拗字段是不是也加上来呀？啊，但是我要告诉大家的是啊，咱们这样去选择一字new字段啊，是不正确的，那为什么不正确啊，那具体又是哪不正确呢？那其实就是这不正确。啊，这儿为啥不正确啊，我给大家解释一下啊，大家来思考一下，呃，我们最终期望的这个结果当中的一字牛字段，它的含义是什么呀？它的含义是新老访客的标识，没错吧？那这个一字new字段是不是直接从d WD pagelo这张表里边选择出来的呀？对吧？那我们回忆一下日志当中的一字new字段的含义是什么呀？
04:10
那它的含义是是否是应用安装之后的首日啊，那所以这个呢，是不能作为新老访客的标识的，那所以在这儿直接选择e new字段作为新老访客的标识是不对的啊，那咱们把它删除啊，那新老访客的标识到底应该如何得到呢？哎，我们应该根据DWT层的访客主题表当中的首次访问日期去计算新老访客的标识啊，那所以在这呢，我们需要再去写一个子查询啊，那这个子查询来我们在这儿写啊，来括号。来把这个格式化一下啊。然我们在里边写select，应该是from哪张表DWT层的，诶，Visit啊，这个topic，然后呢，我们需要获取最新的一天的分区，应该是DT等于2020杠零六杠幺四，里边呢，我们只需要选择mid加上首次访日期就可以了，诶，Visit，诶，Date，诶，First啊，OK，那咱们拿它之后呢，需要起一个别名啊，那这个我们起名为呃，T0吧啊，T0，然后T1跟T0的需要做一个left join left join一下啊OK，那它的连接条件应该是啥呢？诶，应该是on t一点啊，Mid等于T0.mid好，那这两个子查群呢，就召唤到一起了啊，那接下来呢，我们就可以根据这个首次访问日期去计算新老访馈的标识了，那具体怎么算，我们往上走啊，来，来到这个位置啊，那这个一字new呢，就作为别名就可以了，咱们应该怎么算，是不是应该是if一下啊，如果啊，首次访问日期等于今天2020杠零六杠幺四。
05:46
那这时候我们是不是就认定它是一个今天的新增访客呀，对吧？那咱们就返回一个一，否则的话呢，诶咱就返回一个零，OK，那这个呢，才是我们去获取新老访客标识的正确的途径，好了，那这个新老访客的标识咱就拿到了啊，但是拿到之后呢，大家一定要注意一下啊，由于咱下边是不是有joinone了呀，对吧？那那两个子查询当中是不是都有m mid，那所以说我们在选择的时候呢，是不是得标明一下这几个mid的来源呀，对吧？那咱这应该来自于谁？是不是应该是来自于T1这个子查学，那在样呢，我们需要给他写一个T一点，那同理下边也要写啊，那这个呢也是T一点啊，后边呢也是T一点。
06:27
OK，那现在咱这个新老访客的标识就算是加上了啊，那接下来我们把这个circle呢，给他执行一下，诶走。好了，那这就是我们当前得到的这个最终结果啊，这里边包含了两个维度，一个呢是新老访客，那一个呢是诶渠道，那最后我们来看一下recent date这个字段应该如何处理啊，那recent date这个字段的含义是什么呀？啊是不是最近N天呀，对吧？啊在这儿呢，他其实想让我们求的是最近一天的下列指标，最近七天的下列指标，以及最近30天的下列指标。
07:03
咱现在咱下边这个circle是不是只计算了最近一天的指标啊，你看啊，咱现在是不是只读取了DWD配置log这张表最近一天的分区。没错吧，那所以实际上咱现在只计算了最近一天的指标啊，OK，那现在我要想去计算最近七天，最近30天的指标，那咱应该怎么算呀。啊，在这呢，其实我们有两种思路啊，那我们先看第一种思路啊，第一种思路其实比较简单，那怎么做呀？啊，我们只需要把这个circle写三份对吧，然后呢，把另外两份的这个过滤条件改一下就行了。没错吧，那这个是最近一日，那最近七天的呢，我们需要把这个条件改成DT大于等于当前日期减六，那最近30呢？啊，就得改成DT大于等于当前日期减29，没错吧？啊，那改完之后，我们再把这三个circle呢，给它是不是U念到一起就可以了。对吧？那这样一来我们就能够分别统计出来最近一日的诶上述指标，最近七日的上述指标，以及最近三十日的上述指标了，OK，那这就是我们处理recent this这个字段的第一种思路啊，当然这种思路呢，写起来比较麻烦，因为这个circle呢，我们需要写三份，对吧？那再一个呢，改起来也比较麻烦，为啥？你想啊，如果说我们的逻辑有问题，那只要一改是不是就得改三份啊，对吧？所以在这呢，我们并没有采用这种思路啊，那到底是怎么做的呢？那接下来我给大家说明一下啊，在这儿我们实际上是这样去做的啊，首先我们先使用一个UDTF函数啊，UDTF大家都知道是不是有一进多出的一个特点啊，对吧？啊，我们先使用一个UDTF将原始数据扩张为三倍。
08:40
啊，就这23倍，然后呢，我们再通过一个过滤条件啊，分别去过滤最近一天，最近七天和最近30天的数据。啊，那完了之后呢，我们现在是不是得到了三份数据啊，对吧，那这一份只有最近一天的，那这一份呢是最近七天的，这一份呢是最近30天的啊之后呢，我们再根据这个最近N天，也就是一七三十进行分组统计，那这样一来呢，我们就能够通过一个S啊一下把这个最近七三十日的统计值都算出来了。
09:12
那这个到底是如何实现的呢？那接下来呢，我先通过一个小例子给大家演示一下啊好，我们往下走，在这儿呢，我们先写一个小circle啊，先select from，哪上边DWD配置log，然后后边呢，来一个letter explorelo de explode，然后里边我给它放一个什么呢？给它放一个也就是一个数组，对吧？那我们构造一个什么样的数组呢？哎，一个只有三个元素的数组，这三个元素呢，分别是一七，诶，还有30。啊，那完之后呢，后边需要写一个TP，然后再来一个recent，诶，Death OK，那这个recent death是不是就是explode这个UDTF函数输出来的那一列呀，对吧？啊，当然这一列的值应该是啥呀？是不是就是数组当中的每个元素就是一七三十，只不过呢，是竖着来的对吧？啊，这个大家要搞清楚，那其实我们现在就已经把这张表的数据扩张为三份了，对吧？啊，而且每一份是不是里边都会有一个recent date字段呀？
10:08
而且每一份的recent days的值都是不一样的，对吧？那有一份肯定是一，那另一份呢，是不是应该是七，那再有一份呢，应该是30，没错吧，OK，那咱把这个数据查一下，看一下数据到底什么样的，咱来星就可以来我们执行一下。OK，大家注意观察啊，那在最后边是不是多了一个re this这样一列啊，没错吧？啊，而且这个值是不是就是一七三十，一七三十啊，OK，然后大家一定要注意观察一下啊，这三条数据前面的值实际上是一模一样的，对吧？那也就是说咱的数据呢，实际上已经扩张了诶，三倍了啊，这个大家要搞清楚啊，好，那接下来我们继续往进行啊，数据已经扩张为三倍了，那我们的目的呢，不是只把这个数据扩张为三倍对吧？那咱还要干啥呀？咱是不是还需要通过一个过滤条件，分别去过滤最近一天，最近七天和最近30天的值啊，对吧？啊，那这个过滤条件应该怎么写呀。
11:02
其实很简单，怎么写就行了，来大家看我操作一下啊，那在这呢，我们是不是只需要加上一个where dt大于等于大于等于什么，然后把谁放进去呢？把当天日期放进去零六杠幺四，然后后边呢，咱给它减一个recent days，当然呢，还需要再加一个一，诶那这样一来呢，我们就能够分别过滤出来最近一天，最近七天和最近30天的数据了。那我们来看一下它是如何过滤出来的啊，那首先我们这儿是不是已经有三份数据了，对吧？那这三份数据当中的recent days呢，分别是一七三十对吧？那我们先看第一份数据啊，那第一份数据的过滤条件应该是啊，是不是就应应该是DT大于等于2020杠零六杠幺四减一个一再加一个一相当于不加不减对吧？那是不是就是DT大于等于2020杠零六杠幺四，那这样一来我们是不是能够拿到最近一天的数据啊？没错吧，那接下来我们继续往前行，我们再来看re this等于七的这份数据啊，那相当于是不是就是DT大于等于data I的2020杠零零杠幺四，然后减七加一是不是就减六啊对吧？是不是也就是DT大于等于六天前的日期？
12:13
没错吧，那我们得到的是不是就是最近七天的数据？那同样的道理，Recent days等于30这份数据呢，我们就能拿到最近30天的数据了，OK，那到这一步啊，后边的操作实际上就容易了啊，那后边咱是不是只需要按照recent days这个字段进行分组统计就可以了啊，那我们就能够分别得到最近一天、最近七天和最近30天的统计值了啊，OK，那接下来我们把上面的circle完善一下。那上面呢，也要做和这儿一样的处理，所以在这儿呢，咱们把它复制一下啊，来CTRLC，那我们把上面改一下，改哪个位置，是不是改这就可以了，没错吧，来CTRLV啊好，那现在呢，我们就相当于已经把原始数据扩张为了三倍，并且呢，已经分别选择出来了最近一天的数据，最近七天的数据和最近30天的数据了啊好，那现在呢，我们就可以按照recent date这个字段进行分组统计了啊好，那首先我们需要现在诶上边选择出来咱所学的这个字段对吧？那它在哪个位置啊，咱们去看一下啊，它是不是在一字new这个字段下边啊，对吧？所以说我们给它放在这个位置来CTRV，好，那当然咱要想在这儿选择recent death，那下边是不是就得对它进行分组啊，对吧？OK，我们往下走，那在这儿呢，我们需要在GU by里边加上一个recent death啊，那同样道理啊，我们在这儿要想对其进行分组，就得保证T3这个子查询里边得有reason森的电子字段才行，对吧？那所以说我们找到T3这个子查询，那就是在这个位置呢，我们需要加。
13:40
上一个recent death啊，没错吧？啊，那当然T3里边要想有recent death，那就得保证T2里边得有recent death，没错吧？那他在这儿呢，我们也需要选择一个recent death出来啊，然后要注意的是啊，我们从T2里边选择数据的时候呢，是不是进行了分组操作，那所在这儿呢，咱是不是也得加上一个recent date啊？
14:01
没错吧，啊好，我们继续啊，那T2里边要想有recent days，那我们就得保障是不是T1或者是T0里边有recent days啊对吧？那在这儿呢，当然是T1，对不对，在这儿呢，我们需要选择一个recent days出来好了，那到目前为止呢，这个recent days我们就算加上了啊，但是这个加完之后，我们有些地方啊需要去改一下，那具体是哪儿需要改呢？啊，那第一个地方诶就是诶开窗函数当中的分区啊，由于咱的数据呢，由原来的一份扩张为了三份，对吧？那所以说我们在分区的时候呢，也得把三份数据区分开才可以。没错吧，不能混在一起啊，那所以说我们这个分区的字段里边呢，需要加上一个recent this，而然后das啊，这个呢，一定要注意一下啊，啊那除了这个地方呢，还有一个地方咱也得一下啊，哪块呢，就是这啊，就是这个新老访客的标识啊，那为什么这个要改，因为这个判断逻辑呢，针对的只有最近一日的数据，对吧？啊但是现在呢，我们既有最近一日的，也有最近七日的，也有最近三十日的数据，那所以说这块这个判断条件呢，咱就得改一下，那具体改成什么呀。
15:15
哎，其实很简单，是不是应该改成if visit date first？大于等于啊，然后呢，把它CTRLX放进来，应该是data塔I的对吧？然后把当前日期放进去，后面呢，来一个减recent this完之后呢，再加一个一啊，那这样一来呢，这个逻辑就能同时适用于最近一日，最近七日和最近三十日了，好了，那到目前为止呢，咱这个recent days字段才算是真正的处理完了啊好了，那也就是到现在呢，我们所有的维度字段哎，就全部都加上了啊，那现在我们只剩下最后一个字段了，也就这个统计日期啊，统计日期呢，在这儿呢，我们直接写一个常量值就可以，2020杠零六杠幺四啊好，那到目前为止呢，我们所需的所有字段就全部拿到了啊，那现在我们就只剩下最后一件事了，就是把这个结果insert到咱这个目标表当中，没错吧？那接下来我们写一下啊，那按照我们之前的写法呢，是不是应该是insert right加table对吧，后边呢，来一个ADS visit states，没错吧？然后大家要注意一下啊，这张表我们是不是没有分区。
16:17
对吧？那所以后边是不是就不需要写文句了呀？那所以咱这个音字的语句呢，到这儿就结束了，但是呢，大家还得再跟我们思考一个问题啊，那如果我们的音字的语句就这样写的话啊，那这张表当中的历史数据呢，每天都会被覆盖掉啊，也就是说这张表当中永远只会保留最近一天的结果啊，这是为啥呢？很简单，因为我们现在这个inser o呢，它覆盖的是全表，而不是一个分区了，没错吧？啊，那所以显然在这儿呢，我们不能用insert or right，那应该用啥呀？是不是应该用insert into啊，但是用insert into呢，又会带来一个新的问题。什么问题呢？诶，就是小文件的问题，那大家想一想啊，那我们每天去执行insert into这个语句的时候呢，是不是都是一个新的任务啊，对吧？啊，那每天的这个新任务是不是都会产生一个新的文件，没错吧，那所以说日积月累我们的小文件呢，就会越来越多啊，那所以用音色into也不行啊。
17:15
那咱这儿到底应该怎么办呢？诶，最终呢，咱这是这样去做的啊，那首先啊，每天在我们网这张表当中插入新的数据之前啊，我们先把这张表当中原来的数据给它查出来啊，之后呢，再把查出来的历史数据与今天新增的数据进行一个union的操作啊，之后呢，再把数据给它insert overri到这张表当中啊，那这样一来的话呢，我们就能够有效的避免小文件的问题了啊啊那现在我们把这个改一下，也是在这呢，我们需要用insert override对吧？然后下边呢，我们要再接上一个selectt星from as visit states，后面呢再来一个union就可以了，OK，那这样一来的话呢，我们就能够解决这两个问题了啊，那既能保存原来的历史数据，那又能诶避免小文件的产生啊好了，那到目前为止呢，咱的第一个需求就全部完成了。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据项目之尚品汇（电商数仓4.0）

（191/339）

3分50秒

001_尚硅谷-电商数仓-课程介绍

440

10分52秒

002_尚硅谷-数仓概念-数据来源

550

3分54秒

003_尚硅谷-数仓概念-项目演示

440

15分41秒

004-尚硅谷-数仓概念-总体描述

460

13分57秒

005-尚硅谷-数仓需求-需求分析

440

6分14秒

006-尚硅谷-数仓架构-选型考虑因素

410

13分30秒

007-尚硅谷-数仓架构-技术选型

400

12分38秒

008-尚硅谷-数仓架构-项目流程设计

390

10分48秒

009-尚硅谷-数仓架构-框架发行版本选择

390

4分35秒

010-尚硅谷-数仓架构-具体版本

430

8分58秒

011-尚硅谷-数仓架构-服务器选择

360

6分27秒

012-尚硅谷-数仓架构-集群规模

450

6分9秒

013-尚硅谷-数仓架构-集群资源规划设计

430

6分25秒

014-尚硅谷-用户行为数据生成-页面日志介绍

450

1分38秒

015-尚硅谷-用户行为数据生成-事件日志介绍

350

2分16秒

016-尚硅谷-用户行为数据生成-曝光日志介绍

420

2分27秒

017-尚硅谷-用户行为数据生成-启动及错误日志介绍

460

4分53秒

018-尚硅谷-用户行为数据生成-埋点方式

480

2分58秒

019-尚硅谷-用户行为数据生成-埋点上报时机

510

11分16秒

020-尚硅谷-用户行为数据生成-埋点日志格式

340

6分17秒

021-尚硅谷-用户行为数据生成-模板服务器说明

430

10分40秒

022-尚硅谷-用户行为数据生成-克隆三台服务器

380

2分13秒

024-尚硅谷-用户行为数据生成-集群同步脚本

380

5分17秒

025-尚硅谷-用户行为数据生成-无密登录配置

360

10分36秒

026-尚硅谷-用户行为数据生成-安装JDK

420

4分16秒

027-尚硅谷-用户行为数据生成-Linux环境变量说明

400

7分30秒

028-尚硅谷-用户行为数据生成-日志生成

430

6分49秒

029-尚硅谷-用户行为数据生成-日志生成脚本

350

2分43秒

030-尚硅谷-用户行为数据采集-xcall脚本

480

5分4秒

031-尚硅谷-用户行为数据采集-Hadoop安装

400

10分38秒

032-尚硅谷-用户行为数据采集-Hadoop配置（上）

310

6分58秒

033-尚硅谷-用户行为数据采集-Hadoop配置（下）

370

3分21秒

034-尚硅谷-用户行为数据采集-Hadoop历史服务器&日志聚集

340

2分19秒

035-尚硅谷-用户行为数据采集-Hadoop集群启动

390

2分35秒

036-尚硅谷-用户行为数据采集-Hadoop集群启停脚本

370

3分41秒

037-尚硅谷-用户行为数据采集-Hadoop存储多目录

440

3分25秒

038-尚硅谷-用户行为数据采集-Hadoop节点间数据均衡

350

3分5秒

039-尚硅谷-用户行为数据采集-Hadoop磁盘间数据均衡

320

9分4秒

040-尚硅谷-用户行为数据采集-Hadoop配置支持LZO压缩

400

6分41秒

041-尚硅谷-用户行为数据采集-Hadoop配置LZO创建索引

390

5分39秒

042-尚硅谷-用户行为数据采集-Hadoop压测环境准备

370

12分32秒

043-尚硅谷-用户行为数据采集-Hadoop压测写测试

340

2分40秒

044-尚硅谷-用户行为数据采集-Hadoop压测读测试

260

2分21秒

045-尚硅谷-用户行为数据采集-Hadoop压测MR计算

400

3分57秒

046-尚硅谷-用户行为数据采集-Hadoop的HDFS参数调优

370

2分49秒

047-尚硅谷-用户行为数据采集-Hadoop的Yarn参数调优

390

6分39秒

048-尚硅谷-用户行为数据采集-Zookeeper安装

330

5分8秒

049-尚硅谷-用户行为数据采集-Zookeeper脚本

410

10分22秒

050-尚硅谷-用户行为数据采集-Kafka安装

460

3分48秒

051-尚硅谷-用户行为数据采集-Kafka脚本

450

2分19秒

052-尚硅谷-用户行为数据采集-Kafka的API回顾

300

3分12秒

053-尚硅谷-用户行为数据采集-Kafka机器数量

430

10分30秒

054-尚硅谷-用户行为数据采集-Kafka压测环境准备

350

6分44秒

055-尚硅谷-用户行为数据采集-Kafka生产压测

310

2分58秒

056-尚硅谷-用户行为数据采集-Kafka消费压测

360

3分4秒

057-尚硅谷-用户行为数据采集-Kafka分区数

390

6分11秒

058-尚硅谷-用户行为数据采集-Flume安装

370

5分28秒

059-尚硅谷-用户行为数据采集-Flume的Source选择

340

5分15秒

060-尚硅谷-用户行为数据采集-Flume的Channel选择

250

6分0秒

061-尚硅谷-用户行为数据采集-Flume的KafkaChannel

330

15分13秒

062-尚硅谷-用户行为数据采集-Flume配置编写

350

15分15秒

063-尚硅谷-用户行为数据采集-Flume拦截器单Event

410

8分35秒

064-尚硅谷-用户行为数据采集-Flume拦截器和配置完成

300

4分28秒

065-尚硅谷-用户行为数据采集-Flume-Kafka通道打通

400

4分17秒

066-尚硅谷-用户行为数据采集-Flume脚本nohup

360

7分32秒

067-尚硅谷-用户行为数据采集-Flume脚本停止进程

370

8分50秒

068-尚硅谷-用户行为数据采集-Flume脚本完成

340

6分33秒

069-尚硅谷-用户行为数据采集-消费者Flume组件选型

300

6分50秒

070-尚硅谷-用户行为数据采集-消费者Flume零点漂移说明

340

8分20秒

071-尚硅谷-用户行为数据采集-消费者Flume配置Source

350

4分48秒

072-尚硅谷-用户行为数据采集-消费者Flume配置Channel

340

8分57秒

073-尚硅谷-用户行为数据采集-消费者Flume配置Sink

390

11分39秒

074-尚硅谷-用户行为数据采集-消费者Flume时间戳拦截器

370

7分17秒

075-尚硅谷-用户行为数据采集-消费者Flume时间戳拦截器完成

350

7分37秒

076-尚硅谷-用户行为数据采集-消费者Flume小文件问题处理

380

2分26秒

077-尚硅谷-用户行为数据采集-消费者Flume脚本完成

410

1分45秒

078-尚硅谷-用户行为数据采集-消费者Flume内存优化

370

7分3秒

079-尚硅谷-用户行为数据采集-采集通道总脚本

370

4分0秒

080-尚硅谷-用户行为数据采集-2NN的bug解决

370

7分1秒

081-尚硅谷-业务数据采集-电商业务流程

380

29分51秒

082-尚硅谷-业务数据采集-业务数据库(上)

360

19分1秒

083-尚硅谷-业务数据采集-业务数据库(中)

370

30分6秒

084-尚硅谷-业务数据采集-业务数据库(下)

360

12分5秒

085-尚硅谷-业务数据采集-安装MySQL

350

7分11秒

086-尚硅谷-业务数据采集-生成业务数据

360

9分25秒

087-尚硅谷-业务数据采集-Sqoop部署

350

20分33秒

088-尚硅谷-业务数据采集-Sqoop使用

370

11分8秒

089-尚硅谷-业务数据采集-同步策略

380

9分28秒

090-尚硅谷-业务数据采集-同步策略分析

350

14分29秒

091-尚硅谷-业务数据采集-Sqoop同步命令编写

410

19分42秒

092-尚硅谷-业务数据采集-Sqoop同步脚本

380

5分0秒

093-尚硅谷-业务数据采集-部署Hive

370

10分54秒

094-尚硅谷-数仓建模理论-数仓分层概念

360

3分48秒

095-尚硅谷-数仓建模理论-数据集市概念

420

2分52秒

096-尚硅谷-数仓建模理论-开发规范

400

2分6秒

097-尚硅谷-数仓建模理论-概述

420

5分18秒

098-尚硅谷-数仓建模理论-范式概念

470

7分27秒

099-尚硅谷-数仓建模理论-数仓概述

360

9分45秒

100-尚硅谷-数据仓库理论-三范式理论

320

100

10分56秒

101-尚硅谷-数仓建模理论-关系建模和维度建模

400

101

11分51秒

102-尚硅谷-数仓建模理论-维度表和事实表

360

102

5分36秒

103-尚硅谷-数仓建模理论-维度模型分类

320

103

6分59秒

104-尚硅谷-数仓建模理论-ODS层建模思想

420

104

8分2秒

105-尚硅谷-数仓建模理论-DIM层和DWD层建模思想

420

105

22分8秒

106-尚硅谷-数仓建模理论-DIM层和DWD层建模演示

400

106

7分31秒

107-尚硅谷-数仓建模理论-DWS层和DWT层建模思想

400

107

37秒

108-尚硅谷-数仓建模理论-ADS层建表说明

440

108

4分9秒

109-尚硅谷-数仓环境搭建-计算模式分析

350

109

4分49秒

110-尚硅谷-数仓环境搭建-Hive-on-Spark兼容性问题说明

380

110

11分36秒

111-尚硅谷-数仓环境搭建-Hive-on-Spark配置

430

111

4分13秒

112-尚硅谷-数仓环境搭建-Hive-on-Spark测试

410

112

6分1秒

113-尚硅谷-数仓环境搭建-Yarn配置

310

113

6分2秒

114-尚硅谷-数仓环境搭建-DataGrip使用说明

350

114

9分40秒

115-尚硅谷-数仓环境搭建-数据准备

450

115

6分57秒

116-尚硅谷-数仓搭建-ODS层日志表建表语句

380

116

3分44秒

117-尚硅谷-数仓搭建-ODS层日志表数据装载

300

117

6分30秒

118-尚硅谷-数仓搭建-ODS层日志表装载脚本

340

118

4分13秒

119-尚硅谷-数仓搭建-ODS层业务表建表语句

410

119

10分57秒

120-尚硅谷-数仓搭建-ODS层业务表装载脚本

370

120

9分10秒

121-尚硅谷-数仓搭建-DIM层商品维度表建表语句

410

121

11分4秒

122-尚硅谷-数仓搭建-DIM层商品维度表数据装载分析

350

122

12分37秒

123-尚硅谷-数仓搭建-DIM层商品维度表数据装载语句

420

123

4分41秒

124-尚硅谷-数仓搭建-LZO索引文件失效说明

400

124

2分32秒

125-尚硅谷-数仓搭建-DIM层优惠券维度表建表语句

350

125

3分38秒

126-尚硅谷-数仓搭建-DIM层优惠券维度表数据装载

370

126

2分26秒

127-尚硅谷-数仓搭建-DIM层活动维度表建表语句

290

127

3分41秒

128-尚硅谷-数仓搭建-DIM层活动维度表装载语句

310

128

2分42秒

129-尚硅谷-数仓搭建-DIM层地区维度表

470

129

6分43秒

130-尚硅谷-数仓搭建-DIM层时间维度表

380

130

15分19秒

131-尚硅谷-数仓搭建-拉链表概述

470

131

2分5秒

132-尚硅谷-数仓搭建-DIM层用户维度表建表语句

390

132

3分33秒

133-尚硅谷-数仓搭建-DIM层用户维度表数据装载思路

370

133

2分34秒

134-尚硅谷-数仓搭建-DIM层用户维度表首日数据装载

390

134

21分8秒

135-尚硅谷-数仓搭建-DIM层用户维度表每日数据装载

400

135

8分6秒

136-尚硅谷-数仓搭建-DIM层数据装载脚本

430

136

8分23秒

137-尚硅谷-数仓搭建-DWD层日志解析思路

340

137

3分6秒

138-尚硅谷-数仓搭建-get_json_object函数

340

138

4分1秒

139-尚硅谷-数仓搭建-DWD层启动日志表建表语句

360

139

6分47秒

140-尚硅谷-数仓搭建-DWD层启动日志表数据装载

420

140

4分42秒

141-尚硅谷-数仓搭建-DWD层页面日志表

410

141

3分10秒

142-尚硅谷-数据仓库-DWD层动作日志表建表语句

360

142

6分7秒

143-尚硅谷-数仓搭建-DWD层动作日志表数据装载思路

340

143

26分55秒

144-尚硅谷-数仓搭建-UDTF函数编码

390

144

5分24秒

145-尚硅谷-数仓搭建-UDTF函数创建

390

145

5分51秒

146-尚硅谷-数仓搭建-DWD层动作日志表数据装载

410

146

5分20秒

147-尚硅谷-数仓搭建-DWD层曝光日志表

350

147

7分30秒

148-尚硅谷-数仓搭建-DWD层错误日志表

350

148

3分3秒

149-尚硅谷-数仓搭建-DWD层数据装载脚本

360

149

5分14秒

150-尚硅谷-数仓搭建-维度建模回顾

380

150

5分36秒

151-尚硅谷-数仓搭建-DWD层评价事实表建表语句

370

151

8分38秒

152-尚硅谷-数仓搭建-DWD层评价事实表数据装载

350

152

4分6秒

153-尚硅谷-数仓搭建-DWD层订单明细事实表建表语句

360

153

16分28秒

154-尚硅谷-数仓搭建-DWD层订单明细事实表数据装载

350

154

3分13秒

155-尚硅谷-数仓搭建-DWD层退单事实建表语句

330

155

5分24秒

156-尚硅谷-数仓搭建-DWD层退单事实表数据装载

380

156

6分4秒

157-尚硅谷-数仓搭建-DWD层加购事实表

390

157

4分3秒

158-尚硅谷-数仓搭建-DWD层收藏事实表

390

158

6分7秒

159-尚硅谷-数仓搭建-DWD层优惠券领用事实表建表语句

480

159

19分1秒

160-尚硅谷-数仓搭建-DWD层优惠券领用事实表数据装载

390

160

3分9秒

161-尚硅谷-数仓搭建-DWD层支付事实表建表语句

250

161

12分11秒

162-尚硅谷-数仓搭建-DWD层支付事实表数据装载

360

162

12分30秒

163-尚硅谷-数仓搭建-DWD层退款事实表

350

163

8分33秒

164-尚硅谷-数仓搭建-DWD层订单事实表建表语句

280

164

28分49秒

165-尚硅谷-数仓搭建-DWD层订单事实表数据装载

400

165

10分59秒

166-尚硅谷-数仓搭建-DWD层数据装载脚本

360

166

3分0秒

167-尚硅谷-数仓搭建-DWS层建模回顾

310

167

10分25秒

168-尚硅谷-数仓搭建-Hive时间函数和复杂数据类型说明

360

168

8分52秒

169-尚硅谷-数仓搭建-DWS层用户主题建表语句

340

169

4分34秒

170-尚硅谷-数仓搭建-DWS层用户主题数据装载思路分析

310

170

27分26秒

171-尚硅谷-数仓搭建-DWS层用户主题首日数据装载(上)

370

171

29分0秒

172-尚硅谷-数仓搭建-DWS层用户主题首日数据装载(中)

370

172

5分49秒

173-尚硅谷-数仓搭建-DWS层用户主题首日数据装载(下)

390

173

22分52秒

174-尚硅谷-数仓搭建-DWS层用户主题每日数据装载

390

174

4分22秒

175-尚硅谷-数仓搭建-DWS层访客主题建表语句

390

175

5分52秒

176-尚硅谷-数仓搭建-新增访客判断逻辑说明

420

176

19分17秒

177-尚硅谷-数仓搭建-DWS层访客主题数据装载

430

177

3分11秒

178-尚硅谷-数仓搭建-DWS层商品主题建表语句

410

178

10分4秒

179-尚硅谷-数仓搭建-DWS层商品主题数据装载

370

179

7分31秒

180-尚硅谷-数仓搭建-DWS其余主题表结构

370

180

4分10秒

181-尚硅谷-数仓搭建-DWS数据装载脚本

370

181

4分0秒

182-尚硅谷-数仓搭建-DWT层建模思想回顾

300

182

9分21秒

183-尚硅谷-数仓搭建-DWT用户主题建表语句

380

183

27分43秒

184-尚硅谷-数仓搭建-DWT用户主题首日数据装载

380

184

24分43秒

185-尚硅谷-数仓搭建-DWT用户主题每日数据装载

390

185

3分16秒

186-尚硅谷-数仓搭建-DWT访客主题建表语句

380

186

16分23秒

187-尚硅谷-数仓搭建-DWT访客主题数据装载

360

187

11分38秒

188-尚硅谷-数仓搭建-DWT层其余主题表结构

440

188

5分39秒

189-尚硅谷-数仓搭建-DWT层数据装载脚本

390

189

6分4秒

190-尚硅谷-数仓搭建-ADS层访客统计需求说明

360

190

25分49秒

191-尚硅谷-数仓搭建-ADS层访客统计需求讲解(上)

390

191

18分9秒

192-尚硅谷-数仓搭建-ADS层访客统计需求讲解(下)

350

192

3分41秒

193-尚硅谷-数仓搭建-ADS层路径分析需求说明

420

193

20分33秒

194-尚硅谷-数仓搭建-ADS层路径分析需求讲解

380

194

2分36秒

195-尚硅谷-数仓搭建-ADS层用户统计需求说明

370

195

14分2秒

196-尚硅谷-数仓搭建-ADS层用户统计需求讲解

400

196

2分1秒

197-尚硅谷-数仓搭建-ADS层用户变动统计需求说明

420

197

7分58秒

198-尚硅谷-数仓搭建-ADS层用户变动统计需求讲解

420

198

2分20秒

199-尚硅谷-数仓搭建-ADS层漏斗分析需求说明

340

199

16分39秒

200-尚硅谷-数仓搭建-ADS层漏斗分析需求讲解

340

200

3分52秒

201-尚硅谷-数仓搭建-ADS层留存率需求说明

420

201

7分53秒

202-尚硅谷-数仓搭建-ADS层留存率需求讲解

380

202

8分8秒

203-尚硅谷-数仓搭建-ADS层商品统计

410

203

12分18秒

204-尚硅谷-数仓搭建-ADS层复购率

260

204

5分27秒

205-尚硅谷-数仓搭建-ADS层订单统计

390

205

6分10秒

206-尚硅谷-数仓搭建-ADS层各地区订单统计

330

206

12分23秒

207-尚硅谷-数仓搭建-ADS层优惠券统计

390

207

3分11秒

208-尚硅谷-数仓搭建-ADS层活动统计

380

208

2分1秒

209-尚硅谷-数仓搭建-ADS层数据装载脚本

390

209

2分56秒

210-尚硅谷-全流程调度-概述

330

210

9分43秒

211-尚硅谷-全流程调度-Azkaban概述

380

211

3分44秒

212-尚硅谷-全流程调度-Azkaban基本架构及部署模式

390

212

14分11秒

213-尚硅谷-全流程调度-Azkaban部署之数据库初始化

380

213

15分1秒

214-尚硅谷-全流程调度-Azkaban部署之ExecutorServer

380

214

12分19秒

215-尚硅谷-全流程调度-Azkaban部署之WebServer

450

215

12分8秒

216-尚硅谷-全流程调度-Azkaban使用之HelloWorld案例

320

216

15分16秒

217-尚硅谷-全流程调度-Azkaban使用之配置文件编写规则

390

217

7分56秒

218-尚硅谷-全流程调度-Azkaban使用之任务依赖案例

420

218

7分34秒

219-尚硅谷-全流程调度-Azkaban使用之自动失败重试案例

410

219

7分44秒

220-尚硅谷-全流程调度-Azkaban使用之手动失败重试案例

390

220

10分25秒

221-尚硅谷-全流程调度-Azkaban进阶之JavaProcess任务类型

360

221

6分30秒

222-尚硅谷-全流程调度-Azkaban进阶之条件工作流概述

270

222

15分12秒

223-尚硅谷-全流程调度-Azkaban进阶之条件工作流运行时参数案例

340

223

10分43秒

224-尚硅谷-全流程调度-Azkaban进阶之条件工作流预定义宏案例

380

224

6分53秒

225-尚硅谷-全流程调度-Azkaban进阶之定时调度

420

225

10分51秒

226-尚硅谷-全流程调度-Azkaban进阶之邮件报警

420

226

12分25秒

227-尚硅谷-全流程调度-Azkaban进阶之电话报警

320

227

9分42秒

228-尚硅谷-全流程调度-Azkaban进阶之多Executor模式注意事项

460

228

12分13秒

229-尚硅谷-全流程调度-工作流程图

390

229

8分19秒

230-尚硅谷-全流程调度-Mysql建库建表

380

230

14分21秒

231-尚硅谷-全流程调度-Sqoop导出脚本

350

231

4分54秒

232-尚硅谷-全流程调度-新数据准备

380

232

10分7秒

233-尚硅谷-全流程调度-实操

410

233

7分5秒

234-尚硅谷-可视化-Superset概述

410

234

12分21秒

235-尚硅谷-可视化-Superset部署之Miniconda3

350

235

7分29秒

236-尚硅谷-可视化-Superset部署之Python环境

370

236

7分54秒

237-尚硅谷-可视化-Superset部署之安装

370

237

13分25秒

238-尚硅谷-可视化-Superset部署之启停

380

238

14分25秒

239-尚硅谷-可视化-Superset使用之对接数据源

620

239

3分39秒

240-尚硅谷-可视化-Superset使用之创建仪表盘

490

240

14分35秒

241-尚硅谷-可视化-Superset使用之创建Charts

920

241

12分10秒

242-尚硅谷-可视化-Superset使用之桑基图&地图

1450

242

4分26秒

243-尚硅谷-可视化-Superset使用之仪表盘布局调整

890

243

4分53秒

244-尚硅谷-即席查询-Kylin概述

360

244

21分28秒

245-尚硅谷-即席查询-Kylin前置概念

340

245

12分10秒

246-尚硅谷-即席查询-Kylin架构-n

360

246

18分39秒

247-尚硅谷-即席查询-Kylin部署之HBase

410

247

2分49秒

248-尚硅谷-即席查询-Kylin部署之环境变量

420

248

6分58秒

249-尚硅谷-即席查询-Kylin特点

340

249

22分21秒

250-尚硅谷-即席查询-Kylin启动及问题说明

300

250

11分54秒

251-尚硅谷-即席查询-Kylin使用之对接数据源

330

251

12分38秒

252-尚硅谷-即席查询-Kylin使用之构建Model

320

252

13分8秒

253-尚硅谷-即席查询-Kylin使用之构建Cube

380

253

15分5秒

254-尚硅谷-即席查询-Kylin进阶之重复key问题

440

254

28分28秒

255-尚硅谷-即席查询-Kylin进阶之每日调度脚本

370

255

26分8秒

256-尚硅谷-即席查询-Kylin理论之Cube原理

290

256

11分9秒

257-尚硅谷-即席查询-Kylin优化之聚合组

330

257

18分47秒

258-尚硅谷-即席查询-Kylin优化之衍生维度

390

258

12分4秒

259-尚硅谷-即席查询-Kylin优化之RowKey

440

259

15分48秒

260-尚硅谷-即席查询-KylinBI集成

280

260

26分29秒

261-尚硅谷-即席查询-Presto概述

450

261

22分37秒

262-尚硅谷-即席查询-Presto部署之Server

420

262

4分54秒

263-尚硅谷-即席查询-Presto部署之命令行客户端

430

263

8分26秒

264-尚硅谷-即席查询-Presto部署之LZO说明

390

264

7分23秒

265-尚硅谷-即席查询-Presto部署之可视化客户端

340

265

15分15秒

265-尚硅谷-即席查询-Presto注意事项

430

266

10分58秒

267-尚硅谷-集群监控-Zabbix概述

300

267

6分48秒

268-尚硅谷-集群监控-Zabbix部署之准备工作

330

268

17分28秒

269-尚硅谷-集群监控-Zabbix部署之yum仓库准备

400

269

1分10秒

270-尚硅谷-集群监控-Zabbix部署之安装

380

270

19分54秒

271-尚硅谷-集群监控-Zabbix部署之配置

390

271

3分35秒

272-尚硅谷-集群监控-Zabbix使用之简介

390

272

5分29秒

273-尚硅谷-集群监控-Zabbix使用之术语

440

273

6分24秒

274-尚硅谷-集群监控-Zabbix使用之创建主机

360

274

14分1秒

275-尚硅谷-集群监控-Zabbix使用之创建监控项

370

275

6分46秒

276-尚硅谷-集群监控-Zabbix使用之创建触发器

450

276

12分43秒

277-尚硅谷-集群监控-Zabbix使用之创建动作

340

277

12分12秒

278-尚硅谷-集群监控-Zabbix使用之测试&模板

420

278

19分38秒

279-尚硅谷-集群监控-Zabbix使用之集成Grafana

350

279

9分33秒

280-尚硅谷-用户认证-Kerberos概述

530

280

19分46秒

281-尚硅谷-用户认证-Kerberos认证原理

620

281

13分31秒

282-尚硅谷-用户认证-Kerberos部署之配置

590

282

3分43秒

283-尚硅谷-用户认证-Kerberos部署之初始化数据库

480

283

7分21秒

284-尚硅谷-用户认证-Kerberos部署之创建管理员用户

480

284

6分47秒

285-尚硅谷-用户认证-Kerberos使用之数据库操作

590

285

7分52秒

286-尚硅谷-用户认证-Kerberos使用之用户认证

480

286

5分45秒

287-尚硅谷-用户认证-Kerberos集成Hadoop之创建系统用户

450

287

18分43秒

288-尚硅谷-用户认证-Kerberos集成Hadoop之创建Kerberos主体

500

288

27分34秒

289-尚硅谷-用户认证-Kerberos集成Hadoop之修改配置文件

520

289

10分41秒

290-尚硅谷-用户认证-Kerberos集成Hadoop之HTTPS协议说明

500

290

15分14秒

291-尚硅谷-用户认证-Kerberos集成Hadoop之HTTPS配置

430

291

22分43秒

292-尚硅谷-用户认证-Kerberos集成Hadoop之配置LinuxContainorExecutor

500

292

9分16秒

293-尚硅谷-用户认证-Kerberos集成Hadoop之修改本地路径权限

510

293

10分17秒

294-尚硅谷-用户认证-Kerberos集成Hadoop之启动HDFS

400

294

9分46秒

295-尚硅谷-用户认证-Kerberos集成Hadoop之修改HFDS路径权限

390

295

5分3秒

296-尚硅谷-用户认证-Kerberos集成Hadoop之启动Yarn&历史服务器

370

296

7分33秒

297-尚硅谷-用户认证-Kerberos实操之用户要求

450

297

14分15秒

298-尚硅谷-用户认证-Kerberos实操之访问HDFS

580

298

3分17秒

299-尚硅谷-用户认证-Kerberos实操之访问Yarn

370

299

22分20秒

300-尚硅谷-用户认证-Kerberos实操之Hive启用认证

480

300

4分40秒

301-尚硅谷-用户认证-Kerberos实操之HiveBeeline客户端认证

460

301

10分38秒

302-尚硅谷-用户认证-Kerberos实操之HiveDataGrip认证

400

302

21分57秒

303-尚硅谷-用户认证-Kerberos实战全流程调度之准备工作

510

303

4分55秒

304-尚硅谷-用户认证-Kerberos实战全流程调度之新数据准备

430

304

5分59秒

305-尚硅谷-用户认证-Kerberos实战全流程调度之启动Azkaban

410

305

5分48秒

306-尚硅谷-用户认证-Kerberos实战全流程调度之演示

460

306

15分17秒

307-尚硅谷-用户认证-Kerberos实战Presto之准备工作

370

307

12分38秒

308-尚硅谷-用户认证-Kerberos实战Presto之修改配置文件

470

308

10分49秒

309-尚硅谷-用户认证-Kerberos实战Presto之配置映射规则&代理用户

330

309

14分24秒

310-尚硅谷-用户认证-Kerberos实战Presto之认证测试

410

310

12分36秒

311-尚硅谷-用户认证-Kerberos实战Kylin之HBase认证

360

311

16分30秒

312-尚硅谷-用户认证-Kerberos实战Kylin之认证测试

460

312

12分14秒

313-尚硅谷-权限管理-Ranger概述

430

313

10分35秒

314-尚硅谷-权限管理-Ranger部署之用户准备

360

314

2分54秒

315-尚硅谷-权限管理-Ranger部署之数据库初始化

470

315

16分56秒

316-尚硅谷-权限管理-Ranger部署之安装RangerAdmin

540

316

10分43秒

317-尚硅谷-权限管理-Ranger部署之安装UserSynce

360

317

8分20秒

318-尚硅谷-权限管理-Ranger部署之安装Hive插件

450

318

8分56秒

319-尚硅谷-权限管理-Ranger部署之配置Hive插件-nn

320

319

9分8秒

320-尚硅谷-权限管理-Ranger使用之授权管理

310

320

8分56秒

321-尚硅谷-权限管理-Ranger理论之授权模型

470

321

24分5秒

322-尚硅谷-元数据管理-Atlas概述

330

322

13分8秒

323-尚硅谷-元数据管理-Atlas部署之Solr

340

323

19分13秒

324-尚硅谷-元数据管理-Atlas部署之集成各组件

350

324

11分29秒

325-尚硅谷-元数据管理-Atlas部署之集成Hive

380

325

2分26秒

326-尚硅谷-元数据管理-Atlas使用之启动

390

326

9分46秒

327-尚硅谷-元数据管理-Atlas使用之元数据初次导入

410

327

6分17秒

328-尚硅谷-元数据管理-Atlas使用之全流程调度

390

328

4分58秒

329-尚硅谷-元数据管理-Atlas使用之查看血缘依赖关系

520

329

3分31秒

330-尚硅谷-数据质量管理-概述

470

330

3分28秒

331-尚硅谷-数据质量管理-需求分析和功能模块

390

331

4分34秒

332-尚硅谷-数据质量管理-Python开发环境准备

390

332

6分30秒

333-尚硅谷-数据质量管理-Mysql环境准备

370

333

24分56秒

334-尚硅谷-数据质量管理-检测模块(上)

420

334

6分59秒

335-尚硅谷-数据质量管理-检测模块(下)

370

335

24分52秒

336-尚硅谷-数据质量管理-告警集成模块

370

336

29分31秒

337-尚硅谷-数据质量管理-调度模块(上)

360

337

7分40秒

338-尚硅谷-数据质量管理-调度模块(中)

380

338

20分59秒

339-尚硅谷-数据质量管理-调度模块(下)

350

339

10分50秒

340-尚硅谷-数据质量管理-可视化模块

410

192-尚硅谷-数仓搭建-ADS层访客统计需求讲解(下)

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐