文章/答案/技术大牛

发布

首页视频104-尚硅谷-数仓环境准备-新数据准备

104-尚硅谷-数仓环境准备-新数据准备

2022-12-022022-12-02 16:02:23播放35

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据电商数仓项目（含2.0、3.0版本）/尚硅谷数仓项目实战V3.0/视频/104-尚硅谷-数仓环境准备-新数据准备.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
来咱们打开这个data gra吧，啊来到这儿来了之后呢，我现在是不是要去建一个这个数据库啊，那个so该怎么敲怎么敲，是不是就是直接怎么做，是不是create这个date with，然后呢，我们起名叫季贸啊，然后大家要注意的是啊，我们在使用那个呃，这个data gra的时候呢，咱们需要去注意一个事儿啊，就是你这个库建完之后，通常情况下你需要怎么是不需要use它呀，Use它一下对不对，那你在have客户端里边那个黑窗口里边直接use就行，那你在这块怎么怎么怎么去选中这个数据库呢。诶，这个位置这是不是有一个这个可视化的一个图形啊，你点它，然后选到那个集贸就可以了，咱们先把它创建出来啊走。是不是有output已经创建完毕，那这时候呢，咱们点这这是不是出现集贸了呀，那就是咱们点击集贸啊，那大家以后写so的时候呢，要注意观察一下啊，你看看是不是在集贸库下边，你别建到default库里边去啊啊这个库咱们就啊建完了啊很简单，那剩下我们一会呢，就开始从ods层开始去搭建了啊但是在这个搭建数仓之前说一下咱们这个，呃，我们这个开发的一个流程啊，开发流程我一般情况下，我们这个数据仓库，咱们开发的流程是什么样的呀？哎，咱们呢，一般情况下啊，先以一天的数据为例啊，我就先怎么算啊，先拿一天的数据，因为我们数仓是不是离销数仓啊，对吧，我们去计算的时候，是不是都是一天一天的算啊，虽然每天都要算，但是大家都知道每天其实都是一样的吧，所以说我们一般情况下是先以一天的数据为例啊，然后呢，去从头到尾把这个一整套流程是不是给它开发出来呀，对不对，那开发出来之后呢，我们就可以把这些任务呢，都封装到这个脚本当中，然后呢，让他每日定时调度就可以了，是。
01:40
这样的啊，那所以说咱们现在要想做这个整个完整收藏的开发，所以咱现在需要需要做什么事啊，所以需要需要先准备一天的数据啊，对不对，咱需要先准备一天的数据，然后作为我们的这个呃样例数据，然后咱们以它为例去开发啊，那所以说现在我们需要准备一天的数据，那准备这个数据咱们得用谁啊。
02:00
是不是得用采集项目啊，对不对，咱得用采集项目，当初咱们写的那些脚本啊，咱们得去造点数据，再造一天的数据啊，那之前咱们做采集项目的时候呢，已经往HDFS上边是不是已经传过一部分数据了呀，S102，然后呢，呃9870啊，咱们去看一下。找到啊这个日志文件啊，点开，然后找到original a data是吧？啊在这里边啊集贸，然后呢，我们两个类，一类是日志，日志呢我们当时导了一个这个5月10号的，当时我给大家演示出那个日期，我多写了一个小时，对不对啊，这个这个日期还不对着呢啊那然后往上翻，上面有个DB，那DB呢，我们导的是哪天，咱们导的是5月15号的，你会发现咱们这个当时只是把数据扔上来，但是这个日期并不统一，对不对，那这个没有没有办法用啊，我们要想啊去做这个，呃，数仓开发呢，咱们这个准备的一天数据必须得是同一天的啊，因为咱们其实导数据的时候，我们分不同的来源，但其实到了出仓之后呢，我们这个数据呢，最终都会汇总到一起的，所以说这两边日期我们要求保持一致啊，那所以这时候呢，我们再重新把数据再造一下啊，咱们统一一下，统一造一天的数据啊，造哪天都可以，你造今天的就行啊，或者说咱们文档上都是以哪一天为例呢？文档上都是以6月14号为例。
03:20
期的啊，那咱们可以跟他保持一致，保持一致有什么好处啊，这个circle是不是可以直接粘过来就不用改日期了，对吧？啊，咱们跟他保持一致吧，啊保持一致，那我们现在呢，就呃给大家再重新演示一下如何使用我们这个采集项目呢？呃去呃，重新生成6月14号这一天的数据啊，咱们统一一下吧，都用这月14号，当然你不统一也行，你们自己自己自愿啊，自愿就行好，那咱们要造这个数据的话呢，我们呃分呃两个部分去造啊，一个是日志，一个是业务，对吧？那咱们先造日志数据吧，先造日志数据，我们造这个日志数据大家想想啊，那咱们这个步骤应该是怎么样的？造日志数据这个步骤应该什么样的，咱们应该先怎么做呀？
04:01
先把整个日志采集平台是不是得先得启动起来，咱们日志采集平台包括一个卡夫卡，然后呢两个啊，当然三个应该是啊，102103是不是咱们是两个日志服务器，这俩是不是都得起来啊，当然他们俩的逻辑是一样的，然后呢，再把104这个提起来，咱们先把这个通道起起来。接下来之后怎么做来着，是不是执行咱们那个模拟生成日的脚本log.sh，然后这个数据就会被这个采集通道给采集到HDFS上啊，对不对，是这样的啊好，那现在呢，我们把这个采集通道呢，先给它启动起来啊呃，我现在呢，X和GPS看看现在进程，现在呢只有一个呃，HD海路吧，那没有其他的啊，我现在先把卡夫卡启动起来啊KF ka.s start。走啊，昨天没骑对吧？啊，没错啊，要骑卡不卡得先起JK，我这个卡不卡呢，肯定一会自己挂掉了，因为没有JK嘛，啊GPS一下哎，还没挂掉啊。
05:00
现在是没了啊，因为没启ZK嘛啊行，正好来个错误演示啊，来我们再启动ZK，先启ZK。好，ZK呢，应该提起来了，咱们查一下状态，Letters，好，Follow leader follower没问题，那现在起卡夫卡，卡夫卡点哪走？嗯，好，那卡夫卡呢，现在已经啊启动起来，启动起来之后呢，咱们稍微等一会儿，那卡夫卡呢，初始化完，然后呢，我们再去启动辅，因为F是不需要连接咱那个卡普卡呀，对不对，那现在我们启动啊S咱们有俩脚本，一个是f1.sh，它启动的是102和103这俩嘛，那f1.sshstart啊启动，那这时候呢，我们在执行f2.sshstart啊把104这个提起来啊，那都起来了，我们看一下进程SGPS。啊呃，Application啊呃，Application啊，Application是不是都起来了，卡不卡卡不卡啊，这个卡卡OK没问题，那整个通道都采集完了，那咱们就可以准备去生成数据了啊那生成数据呢，我们需要生成的是6月14号的数据，对不对，那也是说我们的数据写到HTS上呢，咱们得让他写到6月14号才行，对不对，那6月14号那个数据啊，就是咱们那个最终HW那个路径啊，这个六月14它是怎么怎么解析而来的，是不是根据那个时间戳决定的呀？啊以问的hi着当中，哎，那个时间戳啊，那个时间窗，那个KV就是time step，然后大家都记得我们之前做采集项目的时候写了一个拦截器，对不对？那你问的呃，那个海尔当中那个time step，咱们是怎么给它加上呢？是不是从日志当中去获取时间呀，对不对，那日志当中的那个时间咱们是怎么指定的，因为日志咱们模拟生成的嘛，如果是真实环境，那你每条日志是不是时间圈，就是生成这条日志的时间呀，对吧？但是咱们现在是模拟生成日志，那咱们日志里边时间圈。
06:54
由谁决定的呢？还记得吗？由咱们那个造日志的那个代码当中，是不是有一个配置文件呀，对吧，那咱们叫做log进到这个路径，咱这里面是不是有一个application.proper啊，对不对，那咱们打开看一下啊。
07:08
那这个里边有一个这样的参数啊，叫做mo.date啊，这就是模拟的日期啊，那咱们其实啊这块你这个日期配的是哪一天，那我们生成的日志里边的时间戳就是哪一天对不对，时间戳是哪一天，它是不是就进到了HTFS哪一天的路径上啊，所以说你想要哪天数据，是不是只要改这个参数就够了呀，它有这样的一个一个逻辑关系的啊，那咱们这样呢，就直接给他改一下啊，改成64，哎，零六杠幺四啊，杠14SHIFT的ZZ啊行，改完了，那这改了103是不是也得改一下啊，因为我们是有两个日志服务器啊，OBD model啊，AP block。啊，然后VMAPP，那这个呢，咱们还是改成零六杠幺四。零六杠14SHIFT zz行，那这边我们就这个改完了，改完之后呢，我们在102节点上面呢，执行log.sh统一在二和三上边同时生成日志，让它同时采集就可以了，那执行完之后呢，我们在这儿要做的事就是呃，Wait啊，就是等待啊。
08:13
来，咱们刷新一下啊，点到这个original orange data，然后金贸点到a log啊，Topic log，然后咱们刷新，诶，这个6月14号的路径已经出现了，对吧？那点进去看一下，在这儿呢，还是tmp结尾的，我们稍微等一会儿，等到这个文件关闭，那咱们再去停，停止咱们的一些进程，行拉罗已经这个出现了，对吧？那文件已经上来了，哎，造一个14号的就行了，那6月15号的数据我们后续再搞，咱们现在就造一天，咱们就以一天为例啊，咱们呃，用这一天的数据把咱数仓从头到尾的整个流程开发完之后呢，哎，咱们再去重新生成一天数据，然后呢，再使用阿兹卡班全流程给咱们调度啊，那提交任务时据不是阿斯卡文自动提交了呀，对吧？咱们准备好数据，让他一次性的啊，一套流程给他跑完就可以了，这是咱们后续的规划啊，咱们现在造一天就够了，行日志造好了，造好之后呢，因为咱们集群资源有限，所以说这时候卡不卡这一进程呢，咱们就还给它关掉就行了，比如说我先关掉这个F2STOP，然后呢F1。
09:14
一这个stop吧，啊，然后呢，我们卡不卡啊，先关卡不卡再关CK对吧？知stop那后大家要注意啊，关卡不卡的时候呢，它是不是需要一个过程啊，它比较慢啊，你看这卡不卡进程是不是还在呀，对不对，这时候你先不要去执行那个租K班的停止命令，你等卡不卡进程真正的消失之后，你再去停止组K板，它需要一定时间，咱们等一会儿吧，啊现在一会我再关吧，啊这让他关着，那一会再关JK，那现在咱们日志就算是造好了，那接下来咱们造哎业务数据啊业务数据啊，那业务数据我们造的话呢，呃，相对来说就比较慢了啊，比较慢了，因为什么呀，因为咱们业务数据是怎么上到hfs上的。通过谁通过scoop打上去的对吧？啊，那你scoop脚本执行比较慢啊，那咱们现在呢，先在哪？我们需要先在买serve当中，注意啊，是不是先在买serve当中得先干啥呀？先生成6月14号的数据，再使用SCO把MYS的数据写到HT，是不是应该是这样一个流程啊来咱们开始啊，CD到OB啊Mo啊然后呢，应该是叫做DB log对吧？DB log，然后这里边也有一个软件叫做application.proper那这里边也有一个Mo点给参数，那这个参数我们也要改日期啊，改什么呀，改成零六杠幺几幺四，零杠幺四啊然后下边呢，有俩参数啊，啊哪俩参数一个是它。
10:37
啊，是否重置用户表，是否重置除用户表之外的其他表啊，那这个是不是相当于是什么叫重置，应该都知道对吧？啊什么意思啊，如果说我这个都设成一，就是都重置对吧，那都重置那相当于它会干什么事，是不是先把咱们买磁Q当中的表清空，然后呢，再给你写入6月14号的数据啊，啊如果说设成零，它会保留之前的数据，然后再给你追加进去啊这是哎，咱们这个清空以及不清空这个作用，这个重置的意思啊，那在这呢，我们呃，就假定啊，假定我们这个数据仓库啊，不是数据仓库就咱们业务系统，假定业务系统我们就是从6月10号，6月14号才开始上线，也是我们的最早的数据就是从6月4号开始的，那也就是说我现在呢，可以把它设成都设成一啊一，然后让他把前面数据清空，也就是我们数，呃，业务系统当中第一天的数据就是六月14啊，你可以这样设一下，然后后续我们再到第二天的时候，是不是还有6月15号啊，对吧，那这个到时候咱们怎么做呀，14号数据是不是还得保留下来，那到时候我们。
11:37
给它设成零啊就可以，那现在呢，咱们因为第一天我就可以先设成都是一就可以啊，哎，Shift z z行，那这时候配完了我们，诶我那日期改没改啊，改了啊，那这时候呢，我们执行加va杠，哎这儿然后呢，我们执行这个炸包，然后注意啊，执行这个命令必须得在这个配置文件所在的路径下去执行啊，为什么？因为这个炸包它所读取配置文件的时候，是不是读取的是当前路径啊，所以说你必须得在它所在的路径下去执行这个命令啊来我们执行走。
12:13
嗯，好，那这个程序它运行完之后，大家说啊，我们这个数据现在写到哪了。是不是仅仅是写到了MYSQL当中啊，仅仅写到my sol当中啊，这时候咱们可以看一下啊，来，我们连上MYSQ啊，看一看数据有没有正确的生成。稍微等一下啊。来找这个机贸啊，联系一下，连接一下。嗯。啊，这个连的有点慢啊。诶，连上了，我们打开这个集贸数据库，然后呢，找到，呃，咱们那个随便找一个跟时间相关的，比如跟订单相关的order ino对不对，那咱们看一下是不是有16号的订单。呃，14号了，六月14有对吧，那说明咱们现在这个数据呢，已经这个造好了啊，造好了行，那日志咱们也搞定了啊，也不是咱们那个日志搞定了，这个业务呢，我们也到买circle了，但是这个业务数据咱们得到哪才算准备好了呀，是不是到HTS啊，所以我们还得使用那个库脚本去导一下啊，自己到屏目录啊，那这时候呢，我们执行点杠my circle to h FS啊，然后这个得问大家了啊，这个脚本咱们怎么穿参。
13:24
啊，咱们回回顾回顾一次了啊，第一天就回顾了，怎么用先传一个啥，传all是吗？注意啊，咱们现在传all还是传first啊，因为咱们得看第一天是哪一天，对吧？我们现在刚才刚说了啊，就是我们现在假定6月14号就是我们导数据的第一天，那所以说咱这不表都得导上去啊，所以咱们这传first啊，那后续从第二天开始，我们交给家的卡顿调度，是不是得传all了呀，那这日期，因为咱们现在是测试环境啊，不能让它自动获取前一天啊，咱们哎是不是传一个指定的日期就行啊，哎，零六杠幺四让它执行行了，然后回车。
14:01
这个脚本呢，相对来说比较慢啊，他可能会传大概十几分钟20分钟啊才能结束啊，那我可以问他一下啊，你说咱们这个数据量大吗。我们在买搜狗当中，是不是也没生成多少数据啊，对不对，那他为什么还这么慢呢。十几20分钟啊，为什么这么慢？啊，然后这么慢，咱有没有什么办法能够让他快一点呢。有没有什么办法？啊，为啥这么慢呀？我记得这个应该也跟大家提过啊，为什么呢。想一想。为什么呢？是不是得看一下咱这个脚本的结构啊，对不对，咱们去看一下这个脚本的结构啊。来，我们CD到这个B目录里啊，VM一下这个脚本啊。Vm my circle to hts，然后呢，我们往下看啊，咱们来到最底下shift j啊，最底下咱们传的是first对不对？传first是不是会依次调用这样的几个函数，注意是依次调用啊，那每个函数都是一个，什么都是一个。
15:01
四库不是一个，而这每个月是几个呀。是两个mmr，因为这个函数当中，咱们一步是导数据，一步是建索引，对不对？所以说每一个其实都是2MMR，那咱们这儿呢，一共导了20多张表，那应该跑多少个mmr啊，40多个M2啊，而这40多个mmr他是怎么跑的呀？是串行跑的，因为它是依次执行对不对，第一个完了，第二个，第二个完了第三个啊，那所以说那这个很显然它串行跑啊，那咱们需要提交这么多MR，你提交MR是不是需要初始化，初始化需要时间，那所以这个任务它就比较慢了，那其实问他一下啊，咱们这20多个表啊，说他们之间有这个依赖关系吗。有依赖关系吗？我有要求必须这个完了才能导导这个吗？没有对吧，那所以说那咱们这几个任务本应该是可以并行去提交的，那咱们提交的时候呢，已经给他放到了一个脚本当中，那所以说它其实是。怎么去串行提交的，所以它比较慢。
16:01
你要想让他快一点，这儿可以怎么解决怎么解决啊啊，咱们可以把这20多张表啊，咱们给它拆开啊叭如说啊，我几个脚本啊，我我三个三个表一个脚本，或者一个表一个脚本，对不对，那这样一来，我们后期交给阿兹卡班去调度的时候啊，交给阿兹卡班去调度的时候，那他是不是会一次性的帮我们同时提交这多个表的导数据的任务，那他们是不是就可以并行去执行了呀，那他就不慢了啊，是这样的啊，所以这块呢，大家要知道这里边呃一些这个就是他们为什么慢啊，然后慢了之后，咱们怎么让它快一点啊，咱们得搞清楚，行，那就说一下这个，那咱们这就不改了啊，不改了就让他这个慢慢执行就行了，咱们也不等他了啊，OK，那我现在把视频录一下。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷数仓项目实战V3.0

（101/291）

7分1秒

001-尚硅谷-数据仓库-课程介绍

390

19分57秒

002-尚硅谷-数据仓库-项目概述

350

15分4秒

003-尚硅谷-项目分析-需求分析

300

17分26秒

004-尚硅谷-项目分析-技术选型

420

11分48秒

005-尚硅谷-项目分析-数据流程设计图

370

13分25秒

006-尚硅谷-项目分析-框架版本选择

380

10分2秒

007-尚硅谷-项目分析-服务器选型

270

11分59秒

008-尚硅谷-项目分析-集群规模规划

370

20分1秒

009-尚硅谷-日志采集-埋点目标数据

560

9分50秒

010-尚硅谷-日志采集-主流埋点方式(了解)

460

12分31秒

011-尚硅谷-日志采集-日志数据结构

400

4分42秒

012-尚硅谷-日志采集-埋点数据上报时机

340

14分25秒

013-尚硅谷-日志采集-服务器准备

420

8分40秒

017-尚硅谷-日志采集-JDK配置及免密配置

370

1分48秒

018-尚硅谷-日志采集-JDK分发

370

7分30秒

019-尚硅谷-日志采集-Linux环境变量说明

420

10分24秒

020-尚硅谷-日志采集-模拟生成日志

380

7分37秒

021-尚硅谷-日志采集-模拟日志脚本

380

5分25秒

022-尚硅谷-日志采集-Hadoop部署之环境变量配置

340

19分0秒

023-尚硅谷-日志采集-Hadoop部署之核心配置

520

12分27秒

024-尚硅谷-日志采集-Hadoop部署之其余配置

370

2分43秒

025-尚硅谷-日志采集-Hadoop部署之历史服务器和日志聚集配置

390

4分23秒

026-尚硅谷-日志采集-Hadoop部署之启动及测试

470

9分17秒

027-尚硅谷-日志采集-Hadoop项目经验之多目录存储

360

8分27秒

028-尚硅谷-日志采集-Hadoop项目经验之数据均衡

300

7分30秒

029-尚硅谷-日志采集-Hadoop项目经验之LZO压缩配置

330

5分21秒

030-尚硅谷-日志采集-Hadoop项目经验之LZO压缩测试

380

9分0秒

031-尚硅谷-日志采集-Hadoop项目经验之LZO切片说明

340

8分39秒

032-尚硅谷-日志采集-Hadoop项目经验之参数调优

290

27分28秒

033-尚硅谷-日志采集-Hadoop项目经验之基准测试

360

7分39秒

034-尚硅谷-日志采集-通道设计规划

440

9分38秒

035-尚硅谷-日志采集-Zookeeper部署

270

10分52秒

036-尚硅谷-日志采集-Kafka安装

360

20分5秒

037-尚硅谷-日志采集-Kafka常用脚本

340

5分16秒

038-尚硅谷-日志采集-Kafka常用脚本补充

240

12分51秒

039-尚硅谷-日志采集-Kafka压力测试

330

9分17秒

040-尚硅谷-日志采集-Kafka机器数量与分区数量计算

430

4分31秒

041-尚硅谷-日志采集-Flume安装

400

5分21秒

042-尚硅谷-日志采集-日志采集配置方案对比

340

8分42秒

043-尚硅谷-日志采集-监控日志Flume组件选择

420

23分13秒

044-尚硅谷-日志采集-监控日志Flume配置文件

340

17分57秒

045-尚硅谷-日志采集-监控日志Flume拦截器编码

430

12分7秒

046-尚硅谷-日志采集-监控日志Flume测试

400

28分24秒

047-尚硅谷-日志采集-Flume启停脚本

360

10分31秒

048-尚硅谷-日志采集-消费KafkaFlume功能分析

340

2分18秒

049-尚硅谷-日志采集-消费KafkaFlume中KafkaChannel注意事项

420

37分35秒

050-尚硅谷-日志采集-消费KafkaFlume配置文件

380

9分2秒

051-尚硅谷-日志采集-消费KafkaFlume时间戳拦截器

440

9分26秒

052-尚硅谷-日志采集-消费KafkaFlume测试

390

1分21秒

053-尚硅谷-日志采集-消费KafkaFlume启停脚本

390

4分38秒

054-尚硅谷-日志采集-消费KafkaFlume内存调整

320

3分23秒

055-尚硅谷-日志采集-小结

310

12分12秒

056-尚硅谷-业务数据采集-电商系统概述

370

7分7秒

057-尚硅谷-业务数据采集-电商系统基本概念

340

7分44秒

058-尚硅谷-业务数据采集-电商系统表结构说明

370

25分1秒

059-尚硅谷-业务数据采集-电商系统核心表概述

340

15分55秒

060-尚硅谷-业务数据采集-电商系统表结构讲解

410

7分58秒

061-尚硅谷-业务数据采集-电商系统表字段说明

380

9分27秒

062-尚硅谷-业务数据采集-模拟数据生成之mysql部署

370

3分40秒

063-尚硅谷-业务数据采集-模拟数据生成之建表

350

10分23秒

064-尚硅谷-业务数据采集-模拟数据生成之EZDM使用简明介绍

410

9分39秒

065-尚硅谷-业务数据采集-模拟数据生成之测试

470

7分11秒

066-尚硅谷-业务数据采集-Sqoop概述

400

7分12秒

067-尚硅谷-业务数据采集-Sqoop安装

370

4分53秒

068-尚硅谷-业务数据采集-Sqoop测试

360

26分13秒

069-尚硅谷-业务数据采集-Sqoop基础使用

440

7分4秒

070-尚硅谷-业务数据采集-Sqoop使用之SQL形式导入

350

23分40秒

071-尚硅谷-业务数据采集-数据同步策略

340

14分33秒

072-尚硅谷-业务数据采集-业务数据表同步策略划分

360

40分18秒

073-尚硅谷-业务数据采集-Sqoop导入脚本之基础说明

310

7分33秒

074-尚硅谷-业务数据采集-Sqoop导入脚本之同步策略说明

450

2分40秒

075-尚硅谷-业务数据采集-Sqoop导入脚本之测试

350

1分35秒

076-尚硅谷-业务数据采集-Sqoop导入脚本之存在问题分析

380

3分57秒

077-尚硅谷-业务数据采集-Sqoop导入脚本之数据验证

420

34分16秒

078-尚硅谷-数仓建模理论-分层概述

440

5分48秒

079-尚硅谷-数仓建模理论-数据集市

300

7分43秒

080-尚硅谷-数仓建模理论-命名规范

390

17分1秒

081-尚硅谷-数仓建模理论-范式理论之概述

370

8分27秒

082-尚硅谷-数仓建模理论-范式理论之函数依赖

380

13分9秒

083-尚硅谷-数仓建模理论-范式理论之三范式

420

12分35秒

084-尚硅谷-数仓建模理论-OLTP与OLAP概述

420

18分6秒

085-尚硅谷-数仓建模理论-关系建模与维度建模

520

15分2秒

086-尚硅谷-数仓建模理论-维度模型之事实表与维度表

500

17分0秒

087-尚硅谷-数仓建模理论-维度模型之事实表分类

380

9分27秒

088-尚硅谷-数仓建模理论-维度模型之模型分类

490

13分41秒

089-尚硅谷-数仓建模理论-数仓分层模型之整体概述

380

4分33秒

090-尚硅谷-数仓建模理论-数仓分层模型之ODS层

380

26分1秒

091-尚硅谷-数仓建模理论-数仓分层模型之DWD层

310

30分51秒

092-尚硅谷-数仓建模理论-数仓分层模型之DWD层维度建模演示

400

11分2秒

093-尚硅谷-数仓建模理论-数仓分层模型之DWS层与DWT层

370

2分10秒

094-尚硅谷-数仓建模理论-数仓分层模型之建模驱动

430

10分34秒

095-尚硅谷-数仓环境准备-Hive安装

400

4分30秒

096-尚硅谷-数仓环境准备-Hive引擎说明

410

8分35秒

097-尚硅谷-数仓环境准备-框架兼容性问题说明

330

23分32秒

098-尚硅谷-数仓环境准备-HiveOnSpark配置

590

10分7秒

099-尚硅谷-数仓环境准备-HiveOnSpark测试

480

17分14秒

100-尚硅谷-数仓环境准备-Yarn容量调度器之并发度问题演示

400

19分38秒

101-尚硅谷-数仓环境准备-Yarn容量调度器之多队列配置

350

8分21秒

102-尚硅谷-数仓环境准备-Yarn容量调度器之提交任务指定队列

380

100

8分24秒

103-尚硅谷-数仓环境准备-DataGrip使用介绍

380

101

16分43秒

104-尚硅谷-数仓环境准备-新数据准备

350

102

11分4秒

105-尚硅谷-数仓搭建-ODS层日志表之建表语句

380

103

5分32秒

106-尚硅谷-数仓搭建-ODS层日志表之数据装载

360

104

7分58秒

107-尚硅谷-数仓搭建-ODS层日志表之装载脚本

330

105

4分33秒

108-尚硅谷-数仓搭建-扩展之Shell脚本引号总结

370

106

6分18秒

109-尚硅谷-数仓搭建-ODS层业务表之建表语句

340

107

4分28秒

110-尚硅谷-数仓搭建-ODS层业务表之装载脚本

420

108

8分8秒

111-尚硅谷-数仓搭建-DWD层日志表之数据结构回顾

400

109

7分34秒

112-尚硅谷-数仓搭建-DWD层日志表之Hive解析JSON函数说明

450

110

6分3秒

113-尚硅谷-数仓搭建-DWD层日志表之日志解析思路分析

340

111

7分26秒

114-尚硅谷-数仓搭建-DWD层日志表之启动表建表语句

330

112

9分0秒

115-尚硅谷-数仓搭建-DWD层日志表之启动表数据装载

360

113

4分28秒

116-尚硅谷-数仓搭建-DWD层日志表之页面表

380

114

9分14秒

117-尚硅谷-数仓搭建-DWD层日志表之动作表解析思路

360

115

5分42秒

118-尚硅谷-数仓搭建-回顾之explode函数使用说明

340

116

3分16秒

119-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数设计

270

117

11分16秒

120-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数说明

420

118

27分6秒

121-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数编写(一)

380

119

8分49秒

122-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数编写(二)

390

120

3分38秒

123-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数注意事项

300

121

6分10秒

124-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数创建

360

122

8分6秒

125-尚硅谷-数仓搭建-DWD层日志表之动作表数据装载

420

123

4分47秒

126-尚硅谷-数仓搭建-DWD层日志表之曝光表

450

124

9分8秒

127-尚硅谷-数仓搭建-DWD层日志表之错误表

400

125

9分57秒

128-尚硅谷-数仓搭建-DWD层数据装载之lzo索引文件识别问题

340

126

5分46秒

129-尚硅谷-数仓搭建-DWD层日志表之数据装载脚本

370

127

4分54秒

130-尚硅谷-数仓搭建-DWD层业务表之维度模型概述

340

128

11分5秒

131-尚硅谷-数仓搭建-DWD层业务表之商品维度表

330

129

1分50秒

132-尚硅谷-数仓搭建-DWD层业务表之优惠券维度表

430

130

11分44秒

133-尚硅谷-数仓搭建-DWD层业务表之活动维度表

350

131

3分40秒

134-尚硅谷-数仓搭建-DWD层业务表之地区维度表

450

132

16分34秒

135-尚硅谷-数仓搭建-DWD层业务表之时间维度表

340

133

19分22秒

136-尚硅谷-数仓搭建-DWD层业务表之支付事实表

380

134

7分22秒

137-尚硅谷-数仓搭建-DWD层业务表之退款事实表

300

135

9分45秒

138-尚硅谷-数仓搭建-DWD层业务表之评价事实表

390

136

7分8秒

139-尚硅谷-数仓搭建-DWD层业务表之订单明细实表建表语句

380

137

14分1秒

140-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(一)

310

138

9分26秒

141-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(二)

300

139

10分46秒

142-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(三)

290

140

7分56秒

143-尚硅谷-数仓搭建-DWD层业务表之加购与收藏事实表

390

141

10分16秒

144-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表分析

390

142

7分48秒

145-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表分区规划

380

143

9分35秒

146-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表数据装载思路

320

144

16分4秒

147-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表数据装载

330

145

9分53秒

148-尚硅谷-数仓搭建-DWD层业务表之订单事实表建表语句

430

146

43分22秒

149-尚硅谷-数仓搭建-DWD层业务表之订单事实表数据装载

340

147

17分10秒

150-尚硅谷-数仓搭建-DWD层业务表之拉链表概述

330

148

15分19秒

151-尚硅谷-数仓搭建-DWD层业务表之拉链表制作过程概述

350

149

17分40秒

152-尚硅谷-数仓搭建-DWD层业务表之用户维度表(一)

400

150

19分44秒

153-尚硅谷-数仓搭建-DWD层业务表之用户维度表(二)

390

151

8分10秒

154-尚硅谷-数仓搭建-DWD层业务表之数据装载脚本

340

152

28分38秒

155-尚硅谷-数仓搭建-DWS&DWT层之业务术语

360

153

14分11秒

156-尚硅谷-数仓搭建-DWS&DWT层之日期函数

380

154

7分22秒

157-尚硅谷-数仓搭建-DWS&DWT层之复杂数据类型使用说明

330

155

16分3秒

158-尚硅谷-数仓搭建-DWS层之会员主题每日汇总表建表语句

400

156

47分40秒

159-尚硅谷-数仓搭建-DWS层之会员主题每日汇总表数据装载

270

157

24分16秒

160-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表建表语句

310

158

6分37秒

161-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载思路分析

390

159

14分46秒

162-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载(一)

390

160

29分43秒

163-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载(二)

360

161

5分43秒

164-尚硅谷-数仓搭建-DWS层之设备主题每日汇总表建表语句

330

162

13分7秒

165-尚硅谷-数仓搭建-DWS层之设备主题每日汇总表数据装载

370

163

6分35秒

166-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表建表语句

340

164

13分45秒

167-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表初次装载说明

390

165

9分28秒

168-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表数据装载

480

166

1分20秒

169-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表建表语句

370

167

23分6秒

170-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(一)

390

168

24分27秒

171-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(二)

430

169

9分25秒

172-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(二)

320

170

12分3秒

173-尚硅谷-数仓搭建-DWT层之商品主题累积汇总表

400

171

20分48秒

174-尚硅谷-数仓搭建-DWS&DWT层之活动主题汇总表

430

172

16分29秒

175-尚硅谷-数仓搭建-DWS&DWT层之地区主题汇总表

430

173

7分5秒

176-尚硅谷-数仓搭建-DWS&DWT层之数据装载脚本

401

174

45分43秒

177-尚硅谷-数仓需求-设备主题之活跃设备数

350

175

4分36秒

178-尚硅谷-数仓需求-设备主题之新增&沉默&流失需求说明

330

176

6分13秒

179-尚硅谷-数仓需求-设备主题之新增设备数需求讲解

260

177

4分9秒

180-尚硅谷-数仓需求-设备主题之沉默用户数需求讲解

380

178

2分51秒

181-尚硅谷-数仓需求-设备主题之流失用户数需求讲解

370

179

8分5秒

182-尚硅谷-数仓需求-设备主题之留存率需求说明

430

180

2分2秒

183-尚硅谷-数仓需求-设备主题之回流用户数需求说明(一)

430

181

2分9秒

184-尚硅谷-数仓需求-设备主题之回流用户数需求说明(二)

400

182

1分57秒

185-尚硅谷-数仓需求-设备主题之最近三周连续活跃用户数需求说明

390

183

2分15秒

186-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求说明

360

184

16分33秒

187-尚硅谷-数仓需求-设备主题之连续三周活跃需求讲解(思路一)

420

185

8分26秒

188-尚硅谷-数仓需求-设备主题之连续三周活跃需求讲解(思路二)

330

186

14分24秒

189-尚硅谷-数仓需求-设备主题之回流用户数需求讲解

370

187

21分0秒

190-尚硅谷-数仓需求-设备主题之留存率需求讲解(思路一)

410

188

9分28秒

191-尚硅谷-数仓需求-设备主题之留存率需求讲解(思路二)

410

189

20分19秒

192-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求讲解(思路一)

350

190

13分4秒

193-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求讲解(思路二)

330

191

4分44秒

194-尚硅谷-数仓需求-会员主题之会员信息统计需求说明

370

192

5分15秒

195-尚硅谷-数仓需求-会员主题之漏斗分析需求说明

390

193

1分51秒

196-尚硅谷-数仓需求-商品主题之商品个数需求说明

340

194

10分1秒

197-尚硅谷-数仓需求-会员主题之会员信息统计需求讲解

330

195

21分8秒

198-尚硅谷-数仓需求-会员主题之漏斗分析需求讲解(思路一)

370

196

6分16秒

199-尚硅谷-数仓需求-会员主题之漏斗分析需求讲解(思路二)

270

197

5分51秒

200-尚硅谷-数仓需求-商品主题之商品个数需求讲解

310

198

8分5秒

201-尚硅谷-数仓需求-商品主题之全局TopN需求说明

380

199

2分45秒

202-尚硅谷-数仓需求-商品主题之分组TopN需求说明

390

200

4分28秒

203-尚硅谷-数仓需求-商品主题之销量排行需求讲解

330

201

3分21秒

204-尚硅谷-数仓需求-商品主题之退款率排行需求讲解

390

202

2分44秒

205-尚硅谷-数仓需求-商品主题之差评率排行需求讲解

360

203

10分57秒

206-尚硅谷-数仓需求-商品主题之分组TopN需求讲解

330

204

7分32秒

207-尚硅谷-数仓需求-营销主题之下单&支付统计需求说明

350

205

9分14秒

208-尚硅谷-数仓需求-营销主题之品怕复购率需求说明

380

206

3分44秒

209-尚硅谷-数仓需求-营销主题之下单统计需求讲解

370

207

11分45秒

210-尚硅谷-数仓需求-营销主题之支付统计需求讲解

350

208

16分54秒

211-尚硅谷-数仓需求-营销主题之复购率需求讲解(思路一)

370

209

9分18秒

212-尚硅谷-数仓需求-营销主题之复购率需求讲解(思路二)

460

210

7分48秒

213-尚硅谷-数仓需求-ADS层数据导入脚本

400

211

14分47秒

214-尚硅谷-全流程调度-工作流程概述

360

212

11分26秒

215-尚硅谷-全流程调度-调度系统概述

400

213

7分54秒

216-尚硅谷-全流程调度-Azkaban部署模式概述

380

214

2分57秒

217-尚硅谷-全流程调度-Azkaban安装之安装包准备

380

215

5分53秒

218-尚硅谷-全流程调度-Azkaban安装之数据库准备

340

216

11分25秒

219-尚硅谷-全流程调度-Azkaban安装之Exec部署

400

217

10分6秒

220-尚硅谷-全流程调度-Azkaban安装之Web部署

470

218

7分53秒

221-尚硅谷-全流程调度-Azkaban使用之入门案例

350

219

5分30秒

222-尚硅谷-全流程调度-Azkaban使用之工作流程配置文件说明

390

220

11分22秒

223-尚硅谷-全流程调度-Azkaban使用之Yaml文件格式概述

390

221

6分34秒

224-尚硅谷-全流程调度-Azkaban使用之任务依赖配置

420

222

4分23秒

225-尚硅谷-全流程调度-Azkaban使用之自动失败重试

380

223

3分56秒

226-尚硅谷-全流程调度-Azkaban使用之手动失败重试

390

224

6分57秒

227-尚硅谷-全流程调度-Azkaban使用之定时调度

410

225

9分35秒

228-尚硅谷-全流程调度-Azkaban使用之邮件配置

470

226

4分35秒

229-尚硅谷-全流程调度-Azkaban使用之邮件通知演示

310

227

5分14秒

230-尚硅谷-全流程调度-实操之Sqoop导出功能说明

440

228

15分3秒

231-尚硅谷-全流程调度-实操之MySQL建库建表

330

229

28分36秒

232-尚硅谷-全流程调度-实操之Sqoop导出脚本

380

230

6分58秒

233-尚硅谷-全流程调度-实操之新数据准备

360

231

7分13秒

234-尚硅谷-全流程调度-实操之Azkaban启停脚本

370

232

11分9秒

235-尚硅谷-全流程调度-实操之Azkaban工作流程配置文件编写

360

233

5分22秒

236-尚硅谷-全流程调度-实操之Azkaban工作流传参说明

440

234

9分34秒

237-尚硅谷-全流程调度-实操之Azkaban全流程调度演示

360

235

8分16秒

238-尚硅谷-全流程调度-实操之Azkaban问题总结

360

236

4分45秒

239-尚硅谷-数据可视化-概述

450

237

6分22秒

240-尚硅谷-数据可视化-Superset概述

370

238

15分56秒

241-尚硅谷-数据可视化-Superset安装之Miniconda部署

520

239

9分43秒

242-尚硅谷-数据可视化-Superset安装之准备Python3.6环境

430

240

7分2秒

243-尚硅谷-数据可视化-Superset安装

530

241

5分31秒

244-尚硅谷-数据可视化-Superset安装之初始化

490

242

6分20秒

245-尚硅谷-数据可视化-Superset安装之启动

400

243

9分52秒

246-尚硅谷-数据可视化-Superset安装之启停脚本

380

244

12分40秒

247-尚硅谷-数据可视化-Superset使用之对接数据源

450

245

13分39秒

248-尚硅谷-数据可视化-Superset使用之趋势图示例

780

246

7分29秒

249-尚硅谷-数据可视化-Superset使用之地图与饼状图示例

980

247

5分17秒

250-尚硅谷-数据可视化-Superset使用之编辑仪表盘

540

248

4分46秒

251-尚硅谷-即席查询-概述

370

249

4分42秒

252-尚硅谷-即席查询-Kylin概述

370

250

38分9秒

253-尚硅谷-即席查询-Kylin前置概念

310

251

12分46秒

254-尚硅谷-即席查询-Kylin基础架构

320

252

6分35秒

255-尚硅谷-即席查询-Kylin特点

310

253

14分12秒

256-尚硅谷-即席查询-Kylin安装之HBase部署

340

254

2分30秒

257-尚硅谷-即席查询-Kylin安装之环境变量准备

380

255

13分19秒

258-尚硅谷-即席查询-Kylin安装之兼容性问题说明

380

256

4分15秒

259-尚硅谷-即席查询-Kylin启动

440

257

30分54秒

260-尚硅谷-即席查询-Kylin使用之基础用法

360

258

21分49秒

261-尚硅谷-即席查询-Kylin使用之维度表重复key问题说明

380

259

8分29秒

262-尚硅谷-即席查询-Kylin使用之查询

390

260

12分39秒

263-尚硅谷-即席查询-Kylin使用之RestAPI使用概述

260

261

9分21秒

264-尚硅谷-即席查询-Kylin使用之每日定时构建脚本

440

262

6分42秒

265-尚硅谷-即席查询-Kylin原理之基础概念回顾

330

263

8分21秒

266-尚硅谷-即席查询-Kylin原理之Cube存储原理

480

264

15分2秒

267-尚硅谷-即席查询-Kylin原理之Cube构建原理

320

265

18分0秒

268-尚硅谷-即席查询-Kylin优化之衍生维度

400

266

13分24秒

269-尚硅谷-即席查询-Kylin优化之聚合组

340

267

15分23秒

270-尚硅谷-即席查询-Kylin优化之Rowkey调整

330

268

8分51秒

271-尚硅谷-即席查询-Kylin优化之并发粒度优化

370

269

7分13秒

272-尚硅谷-即席查询-KylinBI集成之JDBC

390

270

11分47秒

273-尚硅谷-即席查询-KylinBI集成之Zeppelin

390

271

25分6秒

274-尚硅谷-即席查询-Presto概述

340

272

23分45秒

275-尚硅谷-即席查询-Presto安装之Server部署

370

273

5分56秒

276-尚硅谷-即席查询-Presto安装之命令行客户端部署

340

274

8分54秒

277-尚硅谷-即席查询-Presto安装之LZO 压缩格式说明

320

275

8分14秒

278-尚硅谷-即席查询-Presto安装之可视化客户端部署

440

276

17分31秒

279-尚硅谷-即席查询-Presto使用注意事项

390

277

13分49秒

280-尚硅谷-集群监控-Zabbix概述

460

278

7分45秒

281-尚硅谷-集群监控-Zabbix安装之服务器环境准备

310

279

12分29秒

282-尚硅谷-集群监控-Zabbix安装之yum仓库配置

350

280

2分8秒

283-尚硅谷-集群监控-Zabbix安装之下载安装

380

281

10分9秒

284-尚硅谷-集群监控-Zabbix安装之修改配置文件

310

282

2分21秒

285-尚硅谷-集群监控-Zabbix启动

330

283

3分37秒

286-尚硅谷-集群监控-Zabbix安装之web配置

320

284

5分3秒

287-尚硅谷-集群监控-Zabbix使用之术语

400

285

7分17秒

288-尚硅谷-集群监控-Zabbix使用之创建主机

360

286

13分43秒

289-尚硅谷-集群监控-Zabbix使用之配置监控项

330

287

6分13秒

290-尚硅谷-集群监控-Zabbix使用之配置触发器

350

288

3分18秒

291-尚硅谷-集群监控-Zabbix使用之配置报警媒介

380

289

7分56秒

292-尚硅谷-集群监控-Zabbix使用之配置动作

320

290

2分12秒

293-尚硅谷-集群监控-Zabbix使用之测试

430

291

12分59秒

294-尚硅谷-集群监控-Zabbix使用之模板

390

104-尚硅谷-数仓环境准备-新数据准备

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐