文章/答案/技术大牛

发布

首页视频004-尚硅谷-数仓概念-总体描述

004-尚硅谷-数仓概念-总体描述

2022-12-022022-12-02 16:02:26播放46

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据项目之尚品汇（电商数仓4.0）/视频/004-尚硅谷-数仓概念-总体描述.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
啊，上节课我们详细的叙述了数据仓库的数据来源，包括呢业务数据，用户行为数据，以及呢爬虫数据。这么三大类数据，那接下来我们要思考的问题就是我们如何来处理这三类数据。对吧，哎，我就是在我们书商当中，到底怎么来对这些数据进行一个加工。好，那下面我们来看一下。打开这张PPT啊。呃，这是出仓的概念啊，我们再次啊阐述了一下，舒仓呢是为企业制定决策提供数据支持的，所以说这句话非常重要，所以说这也就是我们大数据为什么在企业里面这么受待见，因为老能为老板带来这个收益嘛，啊，所以说我们的价值比较大。那下面来看一下啊，我们的数据呢，主要有这么三类，爬虫，用户行为以及业务，其中这个爬虫啊，我用这个虚线标出来了，也就说呢，不建议大家在企业里面使用啊，因为呢啊容易给你带来不必要的麻烦。
01:01
好，那下面我们就是将这些数据传输到我们的数仓当中，进行一个数据分析。那我们数据仓库用什么来搭建呢？哎，是我们非常熟悉的这个框架，叫have。用它来对海量的数据进行一个分析。哎，其实呢，这我们用的是have on。啊，后面我们会详细介绍啊，为什么用have one Spark引擎来处理。啊，那也就是说我们的数据来源在左侧，我的目标地址呢，在这个have当中。那怎么把数据传过来呀？对吧，哎，首先第一个用户行为数据，我们这里面采用的是框架来进行一个处理。那你要用什么框架，你要分析好它对应的数据类型，对吧？啊数据类型，那左侧这块呢，我们是以文件的形式存储的，右侧呢，我们是把数据存储到have当中。
02:00
哎，那这个我们其实have，它底层存储是不是存储在HDFS里面呢。这样一个过程。啊，那为什么选择flu呢？其实市面上除了之外还有很多其他的框架，比如说log stack呀，对吧？哎，它也能够进行采集认志，甚至你写一个Java程序也可以读取，对吧？L流的方式读取进来之后呢，再把这些数据通过HTS客户端的方式put到as。是不是也可以？那我们为什么选择辅助呢？首先它是一个开源免费的，而且呢，在各个大厂里面，诶使用的非常广泛。哎，它的传输效率呢，也比较高，使用简单，这就是我为什么选择这个。那下面再思考，那么这个业务数据用什么框架来传输到对应的have当中呢？业务数据。我们业务数据存储在哪里？是不是存储在my circle当中？
03:00
那好，那大家对这个SCO啊，他现在比较陌生。那就用你以前学到的技术，能不能完成将业务数据上传到当中？这块很关键。哎，一定要开动你的大脑啊，其实学习项目是一个这个思考的过程。啊，那这里面其实你想啊，如果我们写一个Java程序，是不是就可以连接上买口，通过GDBC连接上之后，仍然是用hfs的客户端命令上传到A上。是不是没问题？哎，确实没有问题，能搞定。那除了这种方式，我们还能用哪种方式完成对应的功能呢？那比如说我们可以用do。思考一下。Hi do法为什么也行？Do吧，它有对应的这个输入组件，是不是这个input format。还有一个组件叫output。我们。这两个一个是管理你输入源的。
04:01
对吧，哎，你对接哪一类书源默认的是这个啊，Test file input，比如说读取的是文件。那我能不能读取MYSQL呢？当然可以，你可以在这个自定义input form里面去通过GDBC的方式连接上MYSQL，那就能够读取到MYSQ的数据。那接下来输出输出hi，默认就输出到ADS上，对吧，你不用改都到。那如果说我想输入到其他特殊的地方，那你可以自定义这个output来完成对应的功能都可以。是吧，哎，所以说这块呢，要脑洞大开啊，其实呢，这个scuba这个框架啊，底层它就是海度。只不过呢，他这个hi do，它是由这个四个map。啊，四个map组成的，比如说没有reduce，因为它不需要聚合，只需要一个传输就行了。好，那了解一下，到这也就说我们可以通过框架采集用户行为数据，通过school框架来处理业务数据。那好，那数据就已经能够上传到数场里面了，那在数入仓里面我们要干什么事呢？
05:05
大家思考一下。哎，出来这么啊，五个单词是吧，啊，一个缩写说ods DW ddwsdw tads，什么意思呢，懵了。那大家思考问题啊，假如说没有这个分五成。那么你想把这个数据汇总过来之后。那万一后面你在加工数据的过程当中，突然间加工坏了。有这种可能吧，或者处理失败了。产生了一些脏数据啊，原始的数据也没了。那整个数仓是不是就瘫痪了。那你想，那你作为收藏的设计者，你要做什么事呢？但我们首先思考的说，我得做一个备份呢。哎，防止受伤当中后续的任何处理操作产生了意外，那我还有最原始的数据。那其实哎，这个舒畅我们也是这么想的。我们就把数据首先备份到OD当中。
06:02
不做任何的修改。那这样的好处就是你后续任何一层发生变化，我这边都能够快速的拿出来数据啊，最原始的。那再思考。说呀，我要分析某一个指标的时候，我需要对一些数据进行清洗，什么叫清洗呢？我举个例子哈，你过来这个数据啊。有可能有一些重复的数据。那怎么产生的重复的呢？你有可能重复的爬虫。或者呢，你在这个，哎，发送到日志服务器的时候，这个用户行为数据啊，我连续发了两次卡死了或怎么样。还有一些数据呢，是过期了，你发过来的时候啊，这个时效性可能是十年前的数据了。那这种数据我也不想要对吧，还有一些日志呢，本身发过来它就不完整，什么叫不完整啊，一共他十个字段，但你传过来之后只剩五个字段了，那这种数据就不可能要啊。那由谁来完成将这些张数据干掉呢？那其实就是我们这个DWD层就完成数据的一个清洗。
07:06
啊，首先我们把数据都整理干净对不对？好，那接下来再思考。啊，在大数据场景下，其实比较慢的操作呢，就是这个招引操作。那么如果你后续每分析一个指标，我都要在前面进行一个招引。有时都要进行交易炒作。那你想，那我如何能够提高我的开发效率呢？我是不是统一的，我招人一次。那后续的话，我都从这个噪音的结果当中。去查数据就OK了。哎，其实那这个书场它也是这么想的，这么设计的，它会将这个书场里面哎一些表的数据进行一个招引，形成大的宽表。避免每次的一个重复的交易冲突。那就形成了DWS和DFT。那为什么有个DWSDP呢？因为DWS是按天聚合的，就是把今天产生的所有的数据我整集在一起。
08:02
按按照主题进行招引啊，不是形成一张大表，它是形成多张主题的大表。那好，那DWT又是什么样的呢？他是一个累积型的宽表，是你这个用户啊，第一天来到这网站注册，一直到你当前这一时刻，可能是已经经过了两三年了。哎，两三年的所有的数据变化都会放到这个DWT里面啊，进行一个存储，比如说你第一次下单。对吧，啊，一直到当前这个三年后的一次下单，那所有的数据在是方便我后续的一个统计。OK，那最后这个ad层，那就是我们总说的报表。那就是老板希望能够看到的一些报表，对吧，老板比如说关心今天的日活，今天的新增，今天的交易额，哎，今天的这个留存用户有多少。等等这些，那么在这个ad上的啊，其实我们这个数据呢，是存储在这个MYSQL里面的。那问题就来了，那老板懂不懂买Q呢？他肯定不懂。
09:00
对吧，你说你让老板去看那个结果的时候，需要他自己去敲门，银行去买车，Q里面查结果，那老板非把你开了不可，对不对，那怎么办呢？哎，那接下来就是我们需要制作一个报表系统。那也是我们数仓的一个输出。我们会把我们分析统计完的结果数据输出到报表系统里面去。哎，那报表系统有什么特点呢？它这里面哎展示的数据啊，可以通过这种柱状图。对吧，哎，柱状图也可以通过这种饼状图。哎，饼状图分析，还有这种折线图是吧？啊折线图。那老板一看这个就非常清晰了啊，说我们这个今天的收益额咔啊，涨了对吧，或者下降了，他都能够清晰的看到，这就是抱怨。那除了报表之外，那我们这个数仓还能够做什么事呢？哎，我们的数据啊，还可以输出到给这个用户画像系统，哎，我们后续也有个用户画像项目。那他又是干啥的呢？哎，说的直白通俗一点，其实这个用户画像系统啊，就是给用户打标签了。
10:07
那什么意思叫标签呢？举个例子哈，叭如说这个宋宋老师。他有一个特点啊，每天晚上12点，哎，准时去三里屯加班，哎干活对不对，哎上夜班。那这个事情我们通过这个大量的数据统计，比如说连续一年的统计，他都是每天晚上啊，12点固定出发啊，路线呢，直奔三里屯啊，早上五点回来。那这个我们就能定位出来，他是一个夜生活工作者，那我们就开始在他这个人设上打上一个标签啊，夜生活工作者。那有什么用啊？那他就有用了，他可以为我们后续的这个推荐系统做好数据准备。你想他是夜生活工作者，那除了宋老师之外，是不是还有很多其他的夜生活工作者，那我们就可以对这一类人群统一的进行相关的推荐，比如说推荐他们需要的啊，面膜啊，手纸啊，哎等等一些日常公共用品。
11:04
那这样推荐的效果是不是就更好一些啊，哎，所以说通常这个用画像和这个推荐系统呢，都会绑在一起的，那同学担心了，说海哥啊，我这个算法啊不行。这个能力各方面差一点，但是你要我工程化代码还可以说这个画像是不是我做不了啊，哎，不是这样的，这个画像啊，它是分为这么三个等级，这里面呢，有这个统计类标签。还有规则类标签，另一个呢，就是机器学习类的标签。那么咱们同学能够做的呢？其实是像统计类标签和规则类标签，我们用这个开口语句就能够完成对应的统计分析，是没有任何问题的。那如果说海哥我想这个通过这个机器学习标签，哎，进一步的一个提升自己的能力，那这个呢，就需要一定的算法。啊，也说初级的普通的这个入门用户画像，我们是完全能搞定的，那如果你的实力强，说海哥我也想搞一下机学习。对应的画像标签能行呢，也可以，但是呢，它的起步要求就是211硕士起步。
12:05
啊，这块要注意啊，包括这个推荐系统也是推荐系统，这里面就需要构建这种推荐模型。对吧，来推荐模型，那推荐模型的话呢，确实里面需要一定的这个算法功力啊，以前呢，咱们讲过八七班，八七班的学生啊，但是呢，里面其实啊，咱们是清华的硕士，还有这个，呃，人人大这个中科院的硕士。啊，两个大硕士啊，非常厉害，但是呢，学生呢，一个班也就有那么四五个同学，能听懂就不错了。啊，后来我们就把它这个啊放到官网上了啊，你关注上硅谷交易公众号，回复大数据，哎，是能够获取到对应的这个免费资料啊。啊，那下面往下看啊，那还有一个呢，就是积极学习，那从积极学习啊，它是包括推荐系统的。啊，因为机器学习非常广哈，因为它有这个机器学习，还有深度学习里面呢，有这个涉及到图片处理的，语言处理的啊，音频处理的等等，非常非常广泛，它是一个大的的一个方向啊。
13:01
而且每一个小的方向都会产生N多个博士或者博士后。啊，深不见底啊深不见底，那么这个积极学习和像推荐系统这种涉及到大量算法，我们能不能学呢？哎，如果你具备前面大数据非常强大的实力，以及学历这块呢，还不错，比如说211的，或者211硕士啊，那这种，那你后续呢，可以尝试去住啊，因为他的薪资待遇啊，确实高啊，基本上呢，都是这个50万年薪起步。啊，所以说大家呢，呃，有经历的同学可以去尝试一下啊，那他火能不能火，他火的前提记住是大数据必须得非常非常火。因为不管你多么优秀的算法，他得得都得有海量的数据作为支撑，你没有海量的数据作为支撑，那一切的算法都扯淡对吧，你说你公司一共每天我就产生一兆的数据。我要做机器学习，我要做推荐系统，你觉得他能推荐的准吗？啊不太可能啊，就是这块呢啊大家了解一下。那接下来大家要再思考一个问题，思考什么问题呢？说这是我们的一个数据仓库。
14:04
我这里经过要好好几步的一个加工处理。那问题来了，说我这个数据什么时候采集？对吧，你是凌晨一点产，凌晨两点，凌晨三点还是我产生一条，我就踩一条。对吧？哎，这是一个问题，那还有问题就是我数据到了ods层之后，我什么时候触发把数据到DWD，什么时候触发到DWS。你发现啊，这个好像我们这个项目当中需要很多任务。那么到底什么时候开始，什么时候结束呢？由谁来管理呢？那这里就涉及到了一个叫任务调度。那任务调度工具啊，目前市场上有很多，你像有这个阿斯卡班啊，有屋有airlow，还有这个DS啊，这是一个简写啊，啊国产的一个调度器。啊，有这么多类的调度器，它可以帮我们管理哪一个任务，什么时候出发。对吧，哎，处罚完之后，下一个任务什么时候开始执行。
15:01
对吧？哎，如果说任何一个任务挂掉之后，他还可以帮你去重试。这就是我们整个数据仓库要做的事儿啊，其实学一个东西啊，其实很简单，你要把握住三块，哪三块呢？第一块我数据怎么来。它长什么样对吧，接下来呢，就是我进入到我们这里面。哎，核心系统之后，我如何对这个核心数据进行一个分析处理，加工计算。记，收完之后我的数据输出到哪里，比如说给谁用，未来他能帮我们解决什么样的问题。哎，这就是我们的数据仓库，先有一个宏观的概念，后面呢我们会详细的介绍。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据项目之尚品汇（电商数仓4.0）

（4/339）

3分50秒

001_尚硅谷-电商数仓-课程介绍

440

10分52秒

002_尚硅谷-数仓概念-数据来源

550

3分54秒

003_尚硅谷-数仓概念-项目演示

440

15分41秒

004-尚硅谷-数仓概念-总体描述

460

13分57秒

005-尚硅谷-数仓需求-需求分析

440

6分14秒

006-尚硅谷-数仓架构-选型考虑因素

410

13分30秒

007-尚硅谷-数仓架构-技术选型

400

12分38秒

008-尚硅谷-数仓架构-项目流程设计

390

10分48秒

009-尚硅谷-数仓架构-框架发行版本选择

390

4分35秒

010-尚硅谷-数仓架构-具体版本

430

8分58秒

011-尚硅谷-数仓架构-服务器选择

360

6分27秒

012-尚硅谷-数仓架构-集群规模

450

6分9秒

013-尚硅谷-数仓架构-集群资源规划设计

430

6分25秒

014-尚硅谷-用户行为数据生成-页面日志介绍

450

1分38秒

015-尚硅谷-用户行为数据生成-事件日志介绍

350

2分16秒

016-尚硅谷-用户行为数据生成-曝光日志介绍

420

2分27秒

017-尚硅谷-用户行为数据生成-启动及错误日志介绍

460

4分53秒

018-尚硅谷-用户行为数据生成-埋点方式

480

2分58秒

019-尚硅谷-用户行为数据生成-埋点上报时机

510

11分16秒

020-尚硅谷-用户行为数据生成-埋点日志格式

340

6分17秒

021-尚硅谷-用户行为数据生成-模板服务器说明

430

10分40秒

022-尚硅谷-用户行为数据生成-克隆三台服务器

380

2分13秒

024-尚硅谷-用户行为数据生成-集群同步脚本

380

5分17秒

025-尚硅谷-用户行为数据生成-无密登录配置

360

10分36秒

026-尚硅谷-用户行为数据生成-安装JDK

420

4分16秒

027-尚硅谷-用户行为数据生成-Linux环境变量说明

400

7分30秒

028-尚硅谷-用户行为数据生成-日志生成

430

6分49秒

029-尚硅谷-用户行为数据生成-日志生成脚本

350

2分43秒

030-尚硅谷-用户行为数据采集-xcall脚本

480

5分4秒

031-尚硅谷-用户行为数据采集-Hadoop安装

400

10分38秒

032-尚硅谷-用户行为数据采集-Hadoop配置（上）

310

6分58秒

033-尚硅谷-用户行为数据采集-Hadoop配置（下）

370

3分21秒

034-尚硅谷-用户行为数据采集-Hadoop历史服务器&日志聚集

340

2分19秒

035-尚硅谷-用户行为数据采集-Hadoop集群启动

390

2分35秒

036-尚硅谷-用户行为数据采集-Hadoop集群启停脚本

370

3分41秒

037-尚硅谷-用户行为数据采集-Hadoop存储多目录

440

3分25秒

038-尚硅谷-用户行为数据采集-Hadoop节点间数据均衡

350

3分5秒

039-尚硅谷-用户行为数据采集-Hadoop磁盘间数据均衡

320

9分4秒

040-尚硅谷-用户行为数据采集-Hadoop配置支持LZO压缩

400

6分41秒

041-尚硅谷-用户行为数据采集-Hadoop配置LZO创建索引

390

5分39秒

042-尚硅谷-用户行为数据采集-Hadoop压测环境准备

370

12分32秒

043-尚硅谷-用户行为数据采集-Hadoop压测写测试

340

2分40秒

044-尚硅谷-用户行为数据采集-Hadoop压测读测试

260

2分21秒

045-尚硅谷-用户行为数据采集-Hadoop压测MR计算

400

3分57秒

046-尚硅谷-用户行为数据采集-Hadoop的HDFS参数调优

370

2分49秒

047-尚硅谷-用户行为数据采集-Hadoop的Yarn参数调优

390

6分39秒

048-尚硅谷-用户行为数据采集-Zookeeper安装

330

5分8秒

049-尚硅谷-用户行为数据采集-Zookeeper脚本

410

10分22秒

050-尚硅谷-用户行为数据采集-Kafka安装

460

3分48秒

051-尚硅谷-用户行为数据采集-Kafka脚本

450

2分19秒

052-尚硅谷-用户行为数据采集-Kafka的API回顾

300

3分12秒

053-尚硅谷-用户行为数据采集-Kafka机器数量

430

10分30秒

054-尚硅谷-用户行为数据采集-Kafka压测环境准备

350

6分44秒

055-尚硅谷-用户行为数据采集-Kafka生产压测

310

2分58秒

056-尚硅谷-用户行为数据采集-Kafka消费压测

360

3分4秒

057-尚硅谷-用户行为数据采集-Kafka分区数

390

6分11秒

058-尚硅谷-用户行为数据采集-Flume安装

370

5分28秒

059-尚硅谷-用户行为数据采集-Flume的Source选择

340

5分15秒

060-尚硅谷-用户行为数据采集-Flume的Channel选择

250

6分0秒

061-尚硅谷-用户行为数据采集-Flume的KafkaChannel

330

15分13秒

062-尚硅谷-用户行为数据采集-Flume配置编写

350

15分15秒

063-尚硅谷-用户行为数据采集-Flume拦截器单Event

410

8分35秒

064-尚硅谷-用户行为数据采集-Flume拦截器和配置完成

300

4分28秒

065-尚硅谷-用户行为数据采集-Flume-Kafka通道打通

400

4分17秒

066-尚硅谷-用户行为数据采集-Flume脚本nohup

360

7分32秒

067-尚硅谷-用户行为数据采集-Flume脚本停止进程

370

8分50秒

068-尚硅谷-用户行为数据采集-Flume脚本完成

340

6分33秒

069-尚硅谷-用户行为数据采集-消费者Flume组件选型

300

6分50秒

070-尚硅谷-用户行为数据采集-消费者Flume零点漂移说明

340

8分20秒

071-尚硅谷-用户行为数据采集-消费者Flume配置Source

350

4分48秒

072-尚硅谷-用户行为数据采集-消费者Flume配置Channel

340

8分57秒

073-尚硅谷-用户行为数据采集-消费者Flume配置Sink

390

11分39秒

074-尚硅谷-用户行为数据采集-消费者Flume时间戳拦截器

370

7分17秒

075-尚硅谷-用户行为数据采集-消费者Flume时间戳拦截器完成

350

7分37秒

076-尚硅谷-用户行为数据采集-消费者Flume小文件问题处理

380

2分26秒

077-尚硅谷-用户行为数据采集-消费者Flume脚本完成

410

1分45秒

078-尚硅谷-用户行为数据采集-消费者Flume内存优化

370

7分3秒

079-尚硅谷-用户行为数据采集-采集通道总脚本

370

4分0秒

080-尚硅谷-用户行为数据采集-2NN的bug解决

370

7分1秒

081-尚硅谷-业务数据采集-电商业务流程

380

29分51秒

082-尚硅谷-业务数据采集-业务数据库(上)

360

19分1秒

083-尚硅谷-业务数据采集-业务数据库(中)

370

30分6秒

084-尚硅谷-业务数据采集-业务数据库(下)

360

12分5秒

085-尚硅谷-业务数据采集-安装MySQL

350

7分11秒

086-尚硅谷-业务数据采集-生成业务数据

360

9分25秒

087-尚硅谷-业务数据采集-Sqoop部署

350

20分33秒

088-尚硅谷-业务数据采集-Sqoop使用

370

11分8秒

089-尚硅谷-业务数据采集-同步策略

380

9分28秒

090-尚硅谷-业务数据采集-同步策略分析

350

14分29秒

091-尚硅谷-业务数据采集-Sqoop同步命令编写

410

19分42秒

092-尚硅谷-业务数据采集-Sqoop同步脚本

380

5分0秒

093-尚硅谷-业务数据采集-部署Hive

370

10分54秒

094-尚硅谷-数仓建模理论-数仓分层概念

360

3分48秒

095-尚硅谷-数仓建模理论-数据集市概念

420

2分52秒

096-尚硅谷-数仓建模理论-开发规范

400

2分6秒

097-尚硅谷-数仓建模理论-概述

420

5分18秒

098-尚硅谷-数仓建模理论-范式概念

470

7分27秒

099-尚硅谷-数仓建模理论-数仓概述

360

9分45秒

100-尚硅谷-数据仓库理论-三范式理论

320

100

10分56秒

101-尚硅谷-数仓建模理论-关系建模和维度建模

400

101

11分51秒

102-尚硅谷-数仓建模理论-维度表和事实表

360

102

5分36秒

103-尚硅谷-数仓建模理论-维度模型分类

320

103

6分59秒

104-尚硅谷-数仓建模理论-ODS层建模思想

420

104

8分2秒

105-尚硅谷-数仓建模理论-DIM层和DWD层建模思想

420

105

22分8秒

106-尚硅谷-数仓建模理论-DIM层和DWD层建模演示

400

106

7分31秒

107-尚硅谷-数仓建模理论-DWS层和DWT层建模思想

400

107

37秒

108-尚硅谷-数仓建模理论-ADS层建表说明

440

108

4分9秒

109-尚硅谷-数仓环境搭建-计算模式分析

350

109

4分49秒

110-尚硅谷-数仓环境搭建-Hive-on-Spark兼容性问题说明

380

110

11分36秒

111-尚硅谷-数仓环境搭建-Hive-on-Spark配置

430

111

4分13秒

112-尚硅谷-数仓环境搭建-Hive-on-Spark测试

410

112

6分1秒

113-尚硅谷-数仓环境搭建-Yarn配置

310

113

6分2秒

114-尚硅谷-数仓环境搭建-DataGrip使用说明

350

114

9分40秒

115-尚硅谷-数仓环境搭建-数据准备

450

115

6分57秒

116-尚硅谷-数仓搭建-ODS层日志表建表语句

380

116

3分44秒

117-尚硅谷-数仓搭建-ODS层日志表数据装载

300

117

6分30秒

118-尚硅谷-数仓搭建-ODS层日志表装载脚本

340

118

4分13秒

119-尚硅谷-数仓搭建-ODS层业务表建表语句

410

119

10分57秒

120-尚硅谷-数仓搭建-ODS层业务表装载脚本

370

120

9分10秒

121-尚硅谷-数仓搭建-DIM层商品维度表建表语句

410

121

11分4秒

122-尚硅谷-数仓搭建-DIM层商品维度表数据装载分析

350

122

12分37秒

123-尚硅谷-数仓搭建-DIM层商品维度表数据装载语句

420

123

4分41秒

124-尚硅谷-数仓搭建-LZO索引文件失效说明

400

124

2分32秒

125-尚硅谷-数仓搭建-DIM层优惠券维度表建表语句

350

125

3分38秒

126-尚硅谷-数仓搭建-DIM层优惠券维度表数据装载

370

126

2分26秒

127-尚硅谷-数仓搭建-DIM层活动维度表建表语句

290

127

3分41秒

128-尚硅谷-数仓搭建-DIM层活动维度表装载语句

310

128

2分42秒

129-尚硅谷-数仓搭建-DIM层地区维度表

470

129

6分43秒

130-尚硅谷-数仓搭建-DIM层时间维度表

380

130

15分19秒

131-尚硅谷-数仓搭建-拉链表概述

470

131

2分5秒

132-尚硅谷-数仓搭建-DIM层用户维度表建表语句

390

132

3分33秒

133-尚硅谷-数仓搭建-DIM层用户维度表数据装载思路

370

133

2分34秒

134-尚硅谷-数仓搭建-DIM层用户维度表首日数据装载

390

134

21分8秒

135-尚硅谷-数仓搭建-DIM层用户维度表每日数据装载

400

135

8分6秒

136-尚硅谷-数仓搭建-DIM层数据装载脚本

430

136

8分23秒

137-尚硅谷-数仓搭建-DWD层日志解析思路

340

137

3分6秒

138-尚硅谷-数仓搭建-get_json_object函数

340

138

4分1秒

139-尚硅谷-数仓搭建-DWD层启动日志表建表语句

360

139

6分47秒

140-尚硅谷-数仓搭建-DWD层启动日志表数据装载

420

140

4分42秒

141-尚硅谷-数仓搭建-DWD层页面日志表

410

141

3分10秒

142-尚硅谷-数据仓库-DWD层动作日志表建表语句

360

142

6分7秒

143-尚硅谷-数仓搭建-DWD层动作日志表数据装载思路

340

143

26分55秒

144-尚硅谷-数仓搭建-UDTF函数编码

390

144

5分24秒

145-尚硅谷-数仓搭建-UDTF函数创建

390

145

5分51秒

146-尚硅谷-数仓搭建-DWD层动作日志表数据装载

410

146

5分20秒

147-尚硅谷-数仓搭建-DWD层曝光日志表

350

147

7分30秒

148-尚硅谷-数仓搭建-DWD层错误日志表

350

148

3分3秒

149-尚硅谷-数仓搭建-DWD层数据装载脚本

360

149

5分14秒

150-尚硅谷-数仓搭建-维度建模回顾

380

150

5分36秒

151-尚硅谷-数仓搭建-DWD层评价事实表建表语句

370

151

8分38秒

152-尚硅谷-数仓搭建-DWD层评价事实表数据装载

350

152

4分6秒

153-尚硅谷-数仓搭建-DWD层订单明细事实表建表语句

360

153

16分28秒

154-尚硅谷-数仓搭建-DWD层订单明细事实表数据装载

350

154

3分13秒

155-尚硅谷-数仓搭建-DWD层退单事实建表语句

330

155

5分24秒

156-尚硅谷-数仓搭建-DWD层退单事实表数据装载

380

156

6分4秒

157-尚硅谷-数仓搭建-DWD层加购事实表

390

157

4分3秒

158-尚硅谷-数仓搭建-DWD层收藏事实表

390

158

6分7秒

159-尚硅谷-数仓搭建-DWD层优惠券领用事实表建表语句

480

159

19分1秒

160-尚硅谷-数仓搭建-DWD层优惠券领用事实表数据装载

390

160

3分9秒

161-尚硅谷-数仓搭建-DWD层支付事实表建表语句

250

161

12分11秒

162-尚硅谷-数仓搭建-DWD层支付事实表数据装载

360

162

12分30秒

163-尚硅谷-数仓搭建-DWD层退款事实表

350

163

8分33秒

164-尚硅谷-数仓搭建-DWD层订单事实表建表语句

280

164

28分49秒

165-尚硅谷-数仓搭建-DWD层订单事实表数据装载

400

165

10分59秒

166-尚硅谷-数仓搭建-DWD层数据装载脚本

360

166

3分0秒

167-尚硅谷-数仓搭建-DWS层建模回顾

310

167

10分25秒

168-尚硅谷-数仓搭建-Hive时间函数和复杂数据类型说明

360

168

8分52秒

169-尚硅谷-数仓搭建-DWS层用户主题建表语句

340

169

4分34秒

170-尚硅谷-数仓搭建-DWS层用户主题数据装载思路分析

310

170

27分26秒

171-尚硅谷-数仓搭建-DWS层用户主题首日数据装载(上)

370

171

29分0秒

172-尚硅谷-数仓搭建-DWS层用户主题首日数据装载(中)

370

172

5分49秒

173-尚硅谷-数仓搭建-DWS层用户主题首日数据装载(下)

390

173

22分52秒

174-尚硅谷-数仓搭建-DWS层用户主题每日数据装载

390

174

4分22秒

175-尚硅谷-数仓搭建-DWS层访客主题建表语句

390

175

5分52秒

176-尚硅谷-数仓搭建-新增访客判断逻辑说明

420

176

19分17秒

177-尚硅谷-数仓搭建-DWS层访客主题数据装载

430

177

3分11秒

178-尚硅谷-数仓搭建-DWS层商品主题建表语句

410

178

10分4秒

179-尚硅谷-数仓搭建-DWS层商品主题数据装载

370

179

7分31秒

180-尚硅谷-数仓搭建-DWS其余主题表结构

370

180

4分10秒

181-尚硅谷-数仓搭建-DWS数据装载脚本

370

181

4分0秒

182-尚硅谷-数仓搭建-DWT层建模思想回顾

300

182

9分21秒

183-尚硅谷-数仓搭建-DWT用户主题建表语句

380

183

27分43秒

184-尚硅谷-数仓搭建-DWT用户主题首日数据装载

380

184

24分43秒

185-尚硅谷-数仓搭建-DWT用户主题每日数据装载

390

185

3分16秒

186-尚硅谷-数仓搭建-DWT访客主题建表语句

380

186

16分23秒

187-尚硅谷-数仓搭建-DWT访客主题数据装载

360

187

11分38秒

188-尚硅谷-数仓搭建-DWT层其余主题表结构

440

188

5分39秒

189-尚硅谷-数仓搭建-DWT层数据装载脚本

390

189

6分4秒

190-尚硅谷-数仓搭建-ADS层访客统计需求说明

360

190

25分49秒

191-尚硅谷-数仓搭建-ADS层访客统计需求讲解(上)

390

191

18分9秒

192-尚硅谷-数仓搭建-ADS层访客统计需求讲解(下)

350

192

3分41秒

193-尚硅谷-数仓搭建-ADS层路径分析需求说明

420

193

20分33秒

194-尚硅谷-数仓搭建-ADS层路径分析需求讲解

380

194

2分36秒

195-尚硅谷-数仓搭建-ADS层用户统计需求说明

370

195

14分2秒

196-尚硅谷-数仓搭建-ADS层用户统计需求讲解

400

196

2分1秒

197-尚硅谷-数仓搭建-ADS层用户变动统计需求说明

420

197

7分58秒

198-尚硅谷-数仓搭建-ADS层用户变动统计需求讲解

420

198

2分20秒

199-尚硅谷-数仓搭建-ADS层漏斗分析需求说明

340

199

16分39秒

200-尚硅谷-数仓搭建-ADS层漏斗分析需求讲解

340

200

3分52秒

201-尚硅谷-数仓搭建-ADS层留存率需求说明

420

201

7分53秒

202-尚硅谷-数仓搭建-ADS层留存率需求讲解

380

202

8分8秒

203-尚硅谷-数仓搭建-ADS层商品统计

410

203

12分18秒

204-尚硅谷-数仓搭建-ADS层复购率

260

204

5分27秒

205-尚硅谷-数仓搭建-ADS层订单统计

390

205

6分10秒

206-尚硅谷-数仓搭建-ADS层各地区订单统计

330

206

12分23秒

207-尚硅谷-数仓搭建-ADS层优惠券统计

390

207

3分11秒

208-尚硅谷-数仓搭建-ADS层活动统计

380

208

2分1秒

209-尚硅谷-数仓搭建-ADS层数据装载脚本

390

209

2分56秒

210-尚硅谷-全流程调度-概述

330

210

9分43秒

211-尚硅谷-全流程调度-Azkaban概述

380

211

3分44秒

212-尚硅谷-全流程调度-Azkaban基本架构及部署模式

390

212

14分11秒

213-尚硅谷-全流程调度-Azkaban部署之数据库初始化

380

213

15分1秒

214-尚硅谷-全流程调度-Azkaban部署之ExecutorServer

380

214

12分19秒

215-尚硅谷-全流程调度-Azkaban部署之WebServer

450

215

12分8秒

216-尚硅谷-全流程调度-Azkaban使用之HelloWorld案例

320

216

15分16秒

217-尚硅谷-全流程调度-Azkaban使用之配置文件编写规则

390

217

7分56秒

218-尚硅谷-全流程调度-Azkaban使用之任务依赖案例

420

218

7分34秒

219-尚硅谷-全流程调度-Azkaban使用之自动失败重试案例

410

219

7分44秒

220-尚硅谷-全流程调度-Azkaban使用之手动失败重试案例

390

220

10分25秒

221-尚硅谷-全流程调度-Azkaban进阶之JavaProcess任务类型

360

221

6分30秒

222-尚硅谷-全流程调度-Azkaban进阶之条件工作流概述

270

222

15分12秒

223-尚硅谷-全流程调度-Azkaban进阶之条件工作流运行时参数案例

340

223

10分43秒

224-尚硅谷-全流程调度-Azkaban进阶之条件工作流预定义宏案例

380

224

6分53秒

225-尚硅谷-全流程调度-Azkaban进阶之定时调度

420

225

10分51秒

226-尚硅谷-全流程调度-Azkaban进阶之邮件报警

420

226

12分25秒

227-尚硅谷-全流程调度-Azkaban进阶之电话报警

320

227

9分42秒

228-尚硅谷-全流程调度-Azkaban进阶之多Executor模式注意事项

460

228

12分13秒

229-尚硅谷-全流程调度-工作流程图

390

229

8分19秒

230-尚硅谷-全流程调度-Mysql建库建表

380

230

14分21秒

231-尚硅谷-全流程调度-Sqoop导出脚本

350

231

4分54秒

232-尚硅谷-全流程调度-新数据准备

380

232

10分7秒

233-尚硅谷-全流程调度-实操

410

233

7分5秒

234-尚硅谷-可视化-Superset概述

410

234

12分21秒

235-尚硅谷-可视化-Superset部署之Miniconda3

350

235

7分29秒

236-尚硅谷-可视化-Superset部署之Python环境

370

236

7分54秒

237-尚硅谷-可视化-Superset部署之安装

370

237

13分25秒

238-尚硅谷-可视化-Superset部署之启停

380

238

14分25秒

239-尚硅谷-可视化-Superset使用之对接数据源

620

239

3分39秒

240-尚硅谷-可视化-Superset使用之创建仪表盘

490

240

14分35秒

241-尚硅谷-可视化-Superset使用之创建Charts

920

241

12分10秒

242-尚硅谷-可视化-Superset使用之桑基图&地图

1450

242

4分26秒

243-尚硅谷-可视化-Superset使用之仪表盘布局调整

890

243

4分53秒

244-尚硅谷-即席查询-Kylin概述

360

244

21分28秒

245-尚硅谷-即席查询-Kylin前置概念

340

245

12分10秒

246-尚硅谷-即席查询-Kylin架构-n

360

246

18分39秒

247-尚硅谷-即席查询-Kylin部署之HBase

410

247

2分49秒

248-尚硅谷-即席查询-Kylin部署之环境变量

420

248

6分58秒

249-尚硅谷-即席查询-Kylin特点

340

249

22分21秒

250-尚硅谷-即席查询-Kylin启动及问题说明

300

250

11分54秒

251-尚硅谷-即席查询-Kylin使用之对接数据源

330

251

12分38秒

252-尚硅谷-即席查询-Kylin使用之构建Model

320

252

13分8秒

253-尚硅谷-即席查询-Kylin使用之构建Cube

380

253

15分5秒

254-尚硅谷-即席查询-Kylin进阶之重复key问题

440

254

28分28秒

255-尚硅谷-即席查询-Kylin进阶之每日调度脚本

370

255

26分8秒

256-尚硅谷-即席查询-Kylin理论之Cube原理

290

256

11分9秒

257-尚硅谷-即席查询-Kylin优化之聚合组

330

257

18分47秒

258-尚硅谷-即席查询-Kylin优化之衍生维度

390

258

12分4秒

259-尚硅谷-即席查询-Kylin优化之RowKey

440

259

15分48秒

260-尚硅谷-即席查询-KylinBI集成

280

260

26分29秒

261-尚硅谷-即席查询-Presto概述

450

261

22分37秒

262-尚硅谷-即席查询-Presto部署之Server

420

262

4分54秒

263-尚硅谷-即席查询-Presto部署之命令行客户端

430

263

8分26秒

264-尚硅谷-即席查询-Presto部署之LZO说明

390

264

7分23秒

265-尚硅谷-即席查询-Presto部署之可视化客户端

340

265

15分15秒

265-尚硅谷-即席查询-Presto注意事项

430

266

10分58秒

267-尚硅谷-集群监控-Zabbix概述

300

267

6分48秒

268-尚硅谷-集群监控-Zabbix部署之准备工作

330

268

17分28秒

269-尚硅谷-集群监控-Zabbix部署之yum仓库准备

400

269

1分10秒

270-尚硅谷-集群监控-Zabbix部署之安装

380

270

19分54秒

271-尚硅谷-集群监控-Zabbix部署之配置

390

271

3分35秒

272-尚硅谷-集群监控-Zabbix使用之简介

390

272

5分29秒

273-尚硅谷-集群监控-Zabbix使用之术语

440

273

6分24秒

274-尚硅谷-集群监控-Zabbix使用之创建主机

360

274

14分1秒

275-尚硅谷-集群监控-Zabbix使用之创建监控项

370

275

6分46秒

276-尚硅谷-集群监控-Zabbix使用之创建触发器

450

276

12分43秒

277-尚硅谷-集群监控-Zabbix使用之创建动作

340

277

12分12秒

278-尚硅谷-集群监控-Zabbix使用之测试&模板

420

278

19分38秒

279-尚硅谷-集群监控-Zabbix使用之集成Grafana

350

279

9分33秒

280-尚硅谷-用户认证-Kerberos概述

530

280

19分46秒

281-尚硅谷-用户认证-Kerberos认证原理

620

281

13分31秒

282-尚硅谷-用户认证-Kerberos部署之配置

590

282

3分43秒

283-尚硅谷-用户认证-Kerberos部署之初始化数据库

480

283

7分21秒

284-尚硅谷-用户认证-Kerberos部署之创建管理员用户

480

284

6分47秒

285-尚硅谷-用户认证-Kerberos使用之数据库操作

590

285

7分52秒

286-尚硅谷-用户认证-Kerberos使用之用户认证

480

286

5分45秒

287-尚硅谷-用户认证-Kerberos集成Hadoop之创建系统用户

450

287

18分43秒

288-尚硅谷-用户认证-Kerberos集成Hadoop之创建Kerberos主体

500

288

27分34秒

289-尚硅谷-用户认证-Kerberos集成Hadoop之修改配置文件

520

289

10分41秒

290-尚硅谷-用户认证-Kerberos集成Hadoop之HTTPS协议说明

500

290

15分14秒

291-尚硅谷-用户认证-Kerberos集成Hadoop之HTTPS配置

430

291

22分43秒

292-尚硅谷-用户认证-Kerberos集成Hadoop之配置LinuxContainorExecutor

500

292

9分16秒

293-尚硅谷-用户认证-Kerberos集成Hadoop之修改本地路径权限

510

293

10分17秒

294-尚硅谷-用户认证-Kerberos集成Hadoop之启动HDFS

400

294

9分46秒

295-尚硅谷-用户认证-Kerberos集成Hadoop之修改HFDS路径权限

390

295

5分3秒

296-尚硅谷-用户认证-Kerberos集成Hadoop之启动Yarn&历史服务器

370

296

7分33秒

297-尚硅谷-用户认证-Kerberos实操之用户要求

450

297

14分15秒

298-尚硅谷-用户认证-Kerberos实操之访问HDFS

580

298

3分17秒

299-尚硅谷-用户认证-Kerberos实操之访问Yarn

370

299

22分20秒

300-尚硅谷-用户认证-Kerberos实操之Hive启用认证

480

300

4分40秒

301-尚硅谷-用户认证-Kerberos实操之HiveBeeline客户端认证

460

301

10分38秒

302-尚硅谷-用户认证-Kerberos实操之HiveDataGrip认证

400

302

21分57秒

303-尚硅谷-用户认证-Kerberos实战全流程调度之准备工作

510

303

4分55秒

304-尚硅谷-用户认证-Kerberos实战全流程调度之新数据准备

430

304

5分59秒

305-尚硅谷-用户认证-Kerberos实战全流程调度之启动Azkaban

410

305

5分48秒

306-尚硅谷-用户认证-Kerberos实战全流程调度之演示

460

306

15分17秒

307-尚硅谷-用户认证-Kerberos实战Presto之准备工作

370

307

12分38秒

308-尚硅谷-用户认证-Kerberos实战Presto之修改配置文件

470

308

10分49秒

309-尚硅谷-用户认证-Kerberos实战Presto之配置映射规则&代理用户

330

309

14分24秒

310-尚硅谷-用户认证-Kerberos实战Presto之认证测试

410

310

12分36秒

311-尚硅谷-用户认证-Kerberos实战Kylin之HBase认证

360

311

16分30秒

312-尚硅谷-用户认证-Kerberos实战Kylin之认证测试

460

312

12分14秒

313-尚硅谷-权限管理-Ranger概述

430

313

10分35秒

314-尚硅谷-权限管理-Ranger部署之用户准备

360

314

2分54秒

315-尚硅谷-权限管理-Ranger部署之数据库初始化

470

315

16分56秒

316-尚硅谷-权限管理-Ranger部署之安装RangerAdmin

540

316

10分43秒

317-尚硅谷-权限管理-Ranger部署之安装UserSynce

360

317

8分20秒

318-尚硅谷-权限管理-Ranger部署之安装Hive插件

450

318

8分56秒

319-尚硅谷-权限管理-Ranger部署之配置Hive插件-nn

320

319

9分8秒

320-尚硅谷-权限管理-Ranger使用之授权管理

310

320

8分56秒

321-尚硅谷-权限管理-Ranger理论之授权模型

470

321

24分5秒

322-尚硅谷-元数据管理-Atlas概述

330

322

13分8秒

323-尚硅谷-元数据管理-Atlas部署之Solr

340

323

19分13秒

324-尚硅谷-元数据管理-Atlas部署之集成各组件

350

324

11分29秒

325-尚硅谷-元数据管理-Atlas部署之集成Hive

380

325

2分26秒

326-尚硅谷-元数据管理-Atlas使用之启动

390

326

9分46秒

327-尚硅谷-元数据管理-Atlas使用之元数据初次导入

410

327

6分17秒

328-尚硅谷-元数据管理-Atlas使用之全流程调度

390

328

4分58秒

329-尚硅谷-元数据管理-Atlas使用之查看血缘依赖关系

520

329

3分31秒

330-尚硅谷-数据质量管理-概述

470

330

3分28秒

331-尚硅谷-数据质量管理-需求分析和功能模块

390

331

4分34秒

332-尚硅谷-数据质量管理-Python开发环境准备

390

332

6分30秒

333-尚硅谷-数据质量管理-Mysql环境准备

370

333

24分56秒

334-尚硅谷-数据质量管理-检测模块(上)

420

334

6分59秒

335-尚硅谷-数据质量管理-检测模块(下)

370

335

24分52秒

336-尚硅谷-数据质量管理-告警集成模块

370

336

29分31秒

337-尚硅谷-数据质量管理-调度模块(上)

360

337

7分40秒

338-尚硅谷-数据质量管理-调度模块(中)

380

338

20分59秒

339-尚硅谷-数据质量管理-调度模块(下)

350

339

10分50秒

340-尚硅谷-数据质量管理-可视化模块

410

004-尚硅谷-数仓概念-总体描述

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐