文章/答案/技术大牛

发布

首页视频051-每日回顾

051-每日回顾

2022-12-022022-12-02 16:02:25播放39

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据项目之Flink实时数仓3.0/视频/051-每日回顾.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那我们简单的把昨天所讲的内容呢，做一个快速的回顾啊呃，那昨天呢，我们是首先带着大家回顾了一下整个离线数仓里边的架构。对吧，然后呢，回顾了离线数仓它的一个建模的方式，以及DWS建表的理论，叫指标体系建设，对吧，当然了，同时我们也通过离线输仓。里边的一些细节引出了我们实时输仓该如何处理，对吧，我们刚开始是完全模仿的这个离线收仓来，但是离线跟实时毕竟还是有区别的，不能完全的去模仿。所以呢，我们在此基础上做了修改，比如说存储。计算。这个都做了修改。对吧，那离线收仓呢，用的都是have have呢，存储依赖于HDFS啊，计算默认依赖于MR，那可以改成Spark引擎或者说T引擎。
01:07
对吧，那我们在验收单里边应该用的是SPARK1斤。好，呃，那我们肯定就不能用这个了，因为它太慢了啊，我们要计算引擎呢，换成了flink。存储呢，也不能用HDFS了，太慢跟磁盘，直接跟磁盘打交道，对吧，你要往磁盘写，还要去实时的能够读出来，很显然HDF不符合我们实时的应用场景啊，那他要实时写可以实时读。那很明显这是一个消息队列所干的事情啊，那我们就想着我们所学习过消息队列只有一个叫卡夫卡，我们就把这个实时收仓，基本的存储依赖于这个卡夫卡啊，所以当时呢，我们想的是oddm，呃，DWDDWSDS全都放到这个。卡夫卡对吧？啊，我们想的用一个框架码，跟have一样，跟我们离验收仓一样，统一的都用have，那实时数仓，我们既然选定了卡夫卡，那是不是我们刚开始想的是都放到卡夫卡，然后再一层一层的去分析这个东西放到卡夫卡它到底合不合适。
02:12
对吧，或者说他有没有更优的方案选择啊，那我们其中有三个地方就换了DM层，他放卡夫卡就不合适。因为DM层呢，我们的使用场景是事实数据来了，我会根据主见去。做招或者说做这个。维表关联就是我根据ID去查一下你的维表。对吧，那我们作为尾表数据而言，假如说我是好多年前创建的一个用户，我今天照样可以下订单。对吧，那我下完订单之后，你应该也要去关联我的用户信息，我是好多年前的，那就涉及到一个永久存储问题。对吧，你卡不卡。不行。啊，那第二个我们要根据主见查询卡夫卡呢，它适合就是说诶，我从我上一次消费的位置，把接下来数据所有的数据全部拿过来，对吧，我要做的是这样的一个事情。
03:13
那你卡夫卡里边根据主件去查询，这个呢，办不到啊，所以呢，D层就不适合放在卡夫卡啊，最后呢，我们要讨论的是base clear ES，什么have my so本身对吧，从这几个角度去讨论了，其实最终呢，我们发现是最好的。对吧，啊，从各个方面来说，它是最优的一种选择方案啊，好，当然它的查询速度不一定是最快的啊，你比如说它比red肯定就慢。啊，但是呢，你有用户表啊，数据量大，你要多放个red，那不太合适对吧？好，这是我们说的这个，呃，S space啊，那么接下来这个DWD层。
04:03
是放在卡夫卡这个没有问题，因为它就是一个数据明细，对吧，你把明细写到卡夫卡，然后呢，你去消费这个明细数据啊，一般在DWD层呢，都是一些事实表和我们的日志数据，对吧，那这个呢，放到DW层，他就来一条做一条计算。就行了啊，所以呢，它完全是适合放在这个卡夫卡的啊DWS呢，放在卡夫卡行不行呢，可以。但是呢，它不好。这个跟DM层不一样，DM层呢是不行对吧，这个呢是不好，它有更好的优化方式，因为我们发现把DWS放到。卡夫卡。那DWS呢，它是根据指标体系建设构建的一些主题，或者说我们称为表，对吧，那它里边呢，是有。原子指标。对吧，然后呢，得到这个。
05:01
派生指标。啊，派人指标呢，在原子指标基础上。加了时间。啊，真重要的，加了什么呢力。啊，注意力度呢，这个东西是维度的组合啊，可能我有好多个不同的维度组合拼接起来的一个力度。对吧，那最终我出ADS指标的时候，可能我只用到这个力度当中一个或某几个维度，不是全部都有。有可能会出现这种情况。对吧，好，那基于这种情况我们一想。你把这个DWS写到卡夫卡，如果说针对于这一张表，我未来要出很多不同的指标。那么对应的什么就很多呀。就是我们所说的flink，流式计算的任务就会非常多吧？是不是对吧，而且这个任务呢，其实就是做一个累加，按天做一个累加，把它累加到一块儿，最后呢，得到一个数据。
06:05
啊，你同时还得把这个数据写出去，你才能做展示。对吧，你还得把这个结果再写到ADS，就是我们说的买circle，好，当然了，你可以设置一个主键，按时间设置一个主键。对吧，然后呢，不断的去更新这个数据，其实数据量呢，倒不是很大。啊，数据量呢，倒不是很大对吧？啊，但是呢，你要实时的往这个买三个去写啊，那另外呢，还得去读，所以这种。把DWS放到卡夫卡，这个方案很明显它有它的一个优化方式。我们可以直接把这个DWS写到一个数据库里面。然后你通过这个数据库，你要什么信息，对吧，你直接写S去查询就好了，而由于我们是一个什么。就是对于DWS这个表呢，最终做的是一个聚合查询，所以我们希望把它写到一个列存的数据库里边，而且查询效率要高。
07:04
对吧，嗯，那很明显克house就是我们最优选择方案了，就是当然这个是建立在我们所学习的框架当中啊，当然，呃，市面上还有很多我们没有学习的框架也可以做到的事情，比如忽地啊这些东西，对吧，也可以做到类似这样的事情，但是我们并没有学这个框架啊，就我们学习的框架就这样，那这个是很重要的一个点，就是你掌握的东西啊，比如说。大家未来面试还是说你们未来工作对吧，你们可以互相去交流，你会发现各个公司当中用到的架构可能不太不太相同啊，或者说用到的框架不太相同。啊，我就这么跟你说吧，比如说啊这个东西。跟E这两个东西对吧，我决定在这两个里边挑一个，从我们的为表。
08:00
啊，那我告诉你，如果说你未来的。项目经理或者说你的组长，他来定这个架构的话，对吧，他如果说对ES这个东西非常熟悉，玩的特别的溜，因为Java转过来了，他可能之前做搜索的。对吧，他玩的特别的溜。但是对h base呢，他是有所了解，因为他接触大数据以后，听过这个H这个东西好，那你觉得他在定这个DM层的时候，假如说他一个人说了算，不需要去讨论，那你觉得他是定还是DES，你觉得。对吧，这个很明显吧，答案。那肯定是ES。对吧，啊，肯定是ES，对于大家来说也一样。对吧，那比如说采集的方式有很多种。啊，那假如说他们可能都行，但是呢，他们之间有一点小差别，就是说A。
09:00
可能比B好一点，但是比C也好一点，对吧，就是好的不多，不是特别的多，对吧，就是好一些，它是最优选择啊，但是呢，你选择这个框架的时候，你可能对B是最熟悉的。其次是CA呢，你了解过啊，您可能知道这个东西呢，也比它好一点，但是呢，对于你的公司当中也没有。质的提升。啊，没有质的提升对吧，那么你肯定会选择B的一个框架，对吧，这是我们所说的克里奥呢，是我们目前所学习到的框架里边，它的一个最优选择，对吧？但是你要放在市面上，他就不一定了。啊，这个就不好说了，对吧？啊，是这样的一种方式啊，这个要清楚对吧？好，所以说你未来在面试的时候，有可能人家会质疑，诶你这块为什么用这个克house或者什么样子的，那你可以甩锅，诶组长去定的，或者说我们之前开会讨论去定的，或者说你说你自己当时也了解过其他的一些框架，但是呢，你对于这个克雷house最为熟悉。
10:05
对吧？啊，为了这个不耽误这个工期，就没有选择其他的框架，因为克雷奥斯能够完成我们最基本的功能，而且可以很优秀的完成我们的基本功能了，对吧？那再去调优换框架，这个呢，没有太多的时间给到你去做这个事儿，对吧？你可能调研了一下啊，能听懂在说什么吧，这个是教到大家，如果未来面试的时候，人家问到你框架的一个问题，对吧？那这个都是会受影响的啊好，这是我们所说的。DWS选择了克house，那既然DWS选择克house ADS就不用聊了，他就可以不落盘了，对吧，直接从克号写S去查询啊，用接口的方式，然后把它查查出来，返回给页面一个接份格式的数据。对吧，啊，那么最终呢，去做一个数据展示，让我们可视化的一个工具，调用我们所写的接口就行了啊，这样的一种方式啊，OK，这是我们所聊的这样一个分层，那后面呢，就是说我们把之前。
11:10
大家所学习的建模理论。对吧，数仓整个的构建流程步骤，它里边所涉及到的什么指标体系建设的理论，给大家稍微的回顾了一下，那最后呢，是测了一下。日志数据采集以及。业务数据的采集对吧？啊，因为这两个采集呢，在书单里边就单独的是一个采集模块，对吧，在我们实时收藏里边，它是相当于我们的ods层，因为这两部分已经把数据写到topic DB与topic log2个主题里边，那已经在卡夫卡了，那我们就直接做成我们的。Ods厂。对吧，做成我们的ods OK，这是我们昨天所讲的内容。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据项目之Flink实时数仓3.0

（50/185）

3分48秒

001_实时数仓_课程简介

500

2分38秒

002_数仓概念-数仓简介

420

11分47秒

003_数仓概念-数据分类

430

22分30秒

004_数仓概念-数仓总体介绍

430

4分48秒

005_数仓概念-项目需求分析

400

16分33秒

006_数仓概念-技术选型

390

10分53秒

007_数仓概念-系统数据流程

450

9分59秒

008_数仓概念-框架版本的选择

390

3分18秒

009_数仓概念-具体版本号选择

400

5分35秒

010_数仓概念-服务器选型

310

9分18秒

011_数仓概念-集群规模

430

2分43秒

012_数仓概念-集群资源规划

390

6分22秒

013_同步行为数据模拟-埋点简介

560

17分25秒

014_用户行为数据模拟-用户行为日志内容

520

9分32秒

015_用户行为数据模拟-埋点日志格式

650

15分56秒

016_用户行为数据模拟-克隆三台服务器

390

4分42秒

018_用户行为数据模拟-集群同步脚本

370

7分49秒

019_用户行为数据模拟-免密登录配置

350

8分54秒

020_用户行为数据模拟-安装JDK

400

4分23秒

021_用户行为数据模拟-Linux环境变量说明

420

15分32秒

022_用户行为数据模拟-模拟数据

430

58分32秒

023_用户行为数据采集-hadoop安装

340

20分6秒

024_用户行为数据采集-Hadoop项目经验

390

11分42秒

025_用户行为数据采集-Zookeeper安装

400

14分12秒

026_用户行为数据采集-Kafka安装

370

5分9秒

027_用户行为数据采集-Flume安装

380

35分53秒

028_用户行为数据采集-Flume的KafkaChannel

370

1时11分

029_用户行为数据采集-采集Flume配置

270

10分7秒

030_业务数据采集-电商业务简介

350

38分11秒

031_业务数据采集-电商业务表结构

400

23分27秒

032_业务数据采集-业务数据模拟

430

2分54秒

033_业务数据采集-业务数据通道

370

21分15秒

034_业务数据采集-Maxwell简介

350

33分26秒

035_业务数据采集-Maxwell配置

440

21分19秒

036_业务数据采集-Maxwell使用

400

3分32秒

037_业务数据采集-采集通道maxwell配置

400

2分14秒

038_实时数仓数据同步-实时数仓同步数据

470

16分43秒

039-分层介绍-离线数仓回顾

390

22分47秒

040-分层介绍-实时数仓分层-处理&存储框架概述

440

21分39秒

041-分层介绍-实时数仓分层-DIM层框架选择

440

14分40秒

042-分层介绍-实时数仓分层-DWS&ADS层框架选择

350

11分42秒

043-分层介绍-实时数仓分层-架构说明

320

16分57秒

044-建模理论-范式理论-关系型数据库

420

17分32秒

045-建模理论-维度建模-大数据数仓

420

8分32秒

046-建模理论-维度建模-事实表&维度表&构建数仓流程

400

4分48秒

047-开发环境-集群环境准备

380

9分54秒

048-开发环境-IDEA环境准备

390

4分58秒

049-ODS层-日志数据采集-测试

340

4分30秒

050-ODS层-业务数据采集-测试

370

11分58秒

051-每日回顾

390

8分33秒

052-DIM层-需求分析

410

7分19秒

053-DIM层-问题&解决思路提出

370

5分51秒

054-DIM层-优化1方案讨论

400

13分15秒

055-DIM层-优化2方案讨论

350

20分1秒

056-DIM层-优化2实施讨论

370

14分56秒

057-DIM层-思路整理

330

15分35秒

058-DIM层-代码编写-流程梳理&获取执行环境

400

15分16秒

059-DIM层-代码编写-Kafka消费者工具类封装

380

16分33秒

060-DIM层-代码编写-过滤脏数据

330

31分43秒

061-DIM层-代码编写-配置信息表-字段讨论&说明

380

10分10秒

062-DIM层-代码编写-配置信息表-准备工作

350

7分2秒

063-DIM层-代码编写-使用FlinkCDC读取配置信息表创建流

410

13分44秒

064-DIM层-代码编写-构建配置信息广播流&与主流连接

390

6分3秒

065-DIM层-代码编写-连接流处理逻辑分析

410

37分7秒

066-DIM层-代码编写-处理广播流数据

400

27分26秒

067-DIM层-代码编写-处理主流数据

420

15分58秒

068-DIM层-代码测试

320

21分39秒

069-每日回顾

340

16分22秒

070-DIM层-将数据写出-JdbcSink分析

350

12分27秒

071-DIM层-将数据写出-自定义Sink-创建连接池

350

31分16秒

072-DIM层-将数据写出-自定义Sink-拼接SQL&执行

380

13分37秒

073-DIM层-将数据写出-代码测试

320

24分54秒

074-DWD层-整体介绍&方案说明

390

15分0秒

075-DWD层-流量域-未加工事实表-需求分析

410

19分38秒

076-DWD层-流量域-未加工事实表-思路分析

400

8分54秒

077-DWD层-流量域-未加工事实表-代码编写-时间工具类

330

13分57秒

078-DWD层-流量域-未加工事实表-代码编写-消费&过滤&分组数据

350

16分15秒

079-DWD层-流量域-未加工事实表-代码编写-新老访客标记校验

270

23分3秒

080-DWD层-流量域-未加工事实表-代码编写-分流

390

20分59秒

081-DWD层-流量域-未加工事实表-写出数据&测试

370

10分40秒

082-每日回顾

440

6分59秒

083-DWD层-流量域-未加工事实表-整体测试

350

14分6秒

084-DWD层-流量域-独立访客明细表-需求分析

320

21分5秒

085-DWD层-流量域-独立访客明细表-思路分析

360

6分42秒

086-DWD层-流量域-独立访客明细表-代码编写-获取&过滤&转换数据

380

8分57秒

087-DWD层-流量域-独立访客明细表-代码编写-按照Mid去重&写出到Kafka

260

26分44秒

088-DWD层-流量域-独立访客明细表-代码编写-添加状态TTL

300

8分5秒

089-DWD层-流量域-独立访客明细表-代码测试

360

17分0秒

090-DWD层-流量域-跳出明细表-需求分析&思路一

320

13分56秒

091-DWD层-流量域-跳出明细表-思路二

330

20分21秒

092-DWD层-流量域-跳出明细表-思路三

340

28分0秒

093-DWD层-流量域-跳出明细表-代码编写

360

24分37秒

094-DWD层-流量域-跳出明细表-代码测试

380

10分1秒

095-Flink基础知识扩展-说明

420

12分46秒

096-Flink基础知识扩展-WindowJoin-介绍

350

31分22秒

097-Flink基础知识扩展-IntervalJoin

420

21分51秒

098-Flink基础知识扩展-FlinkSQLJoin-官网说明&InnerJoin编码测试

370

29分42秒

099-Flink基础知识扩展-FlinkSQLJoin-外连接测试

310

18分29秒

100-Flink基础知识扩展-FlinkSQLJoin-LookUpJoin说明&构建维表

420

100

20分46秒

101-FlinkSQLJoin-LookUpJoin编码-构建事实表&关联测试

410

101

11分12秒

102-每日回顾

370

102

7分31秒

103-DWD层-加购事实表-需求分析&思路整理

390

103

24分23秒

104-DWD层-加购事实表-DDL构建topci_db表

450

104

21分24秒

105-DWD层-加购事实表-过滤出加购数据

360

105

28分32秒

106-DWD层-加购事实表-编码完成&测试

380

106

27分23秒

107-DWD层-订单事实预处理表-需求分析&获取原始表和LookUp表

410

107

24分53秒

108-DWD层-订单事实预处理表-过滤出4张表&测试

360

108

29分55秒

109-DWD层-订单事实预处理表-关联5张表&测试

330

109

26分18秒

110-DWD层-订单事实预处理表-将数据写出&测试

300

110

18分36秒

111-每日回顾

300

111

40分2秒

112-DWD层-下单事实表

390

112

22分1秒

113-DWD层-取消订单事实表

370

113

36分56秒

114-DWD层-支付成功需求

400

114

14分34秒

115-DWD层-退单需求

280

115

17分45秒

116-DWD层-退款成功需求

360

116

21分10秒

117-DWD层-优惠券相关需求

430

117

16分56秒

118-DWD层-收藏商品、评价、用户注册需求

390

118

15分30秒

119-DWS层-整体介绍

370

119

33分4秒

120-DWS层-关键词需求-需求分析&工具类封装

260

120

33分14秒

121-DWS层-关键词需求-代码编写2

340

121

20分51秒

122-DWS层-关键词需求-代码编写-开窗聚合&ClickHouse表引擎选择

360

122

25分25秒

123-DWS层-关键词需求-编码完成&测试

340

123

7分21秒

124-每日回顾

430

124

18分4秒

125-DWS层-关键词需求-代码编写-ClickHouse建表&工具类封装-1

370

125

26分10秒

126-DWS层-关键词需求-代码编写-ClickHouse工具类封装-2

460

126

17分39秒

127-DWS层-关键词需求-代码编写-ClickHouse工具类封装-3

400

127

3分13秒

128-DWS层-关键词需求-代码最终测试

410

128

26分53秒

129-DWS层-版本渠道地区访客类别粒度页面浏览需求-需求分析&编码开始

400

129

27分11秒

130-DWS层-版本渠道地区访客类别粒度页面浏览需求-代码编写2

320

130

30分14秒

131-DWS层-版本渠道地区访客类别粒度页面浏览需求-代码测试

360

131

11分12秒

132-每日回顾

360

132

11分10秒

133-DWS层-页面浏览需求-需求分析&思路整理

360

133

8分16秒

134-DWS层-页面浏览需求-消费&转换&过滤数据

290

134

26分42秒

135-DWS层-页面浏览需求-编码完成&测试

350

135

16分44秒

136-DWS层-用户登录需求-需求分析&思路整理

450

136

29分37秒

137-DWS层-用户登录需求-编码&测试

360

137

21分41秒

138-DWS层-用户注册需求

330

138

27分27秒

139-DWS层-加购需求

390

139

6分52秒

140-每日回顾

360

140

24分56秒

141-DWS层-支付成功需求-需求分析

290

141

30分10秒

142-DWS层-支付成功需求-去重思路

290

142

32分0秒

143-DWS层-支付成功需求-思路整理&编码开始

320

143

34分42秒

144-DWS层-支付成功需求-编码完成&测试

360

144

32分7秒

145-DWS层-下单需求-需求分析&代码编写

350

145

25分35秒

146-DWS层-下单需求-编码完成&测试

370

146

13分42秒

147-每日回顾

370

147

10分38秒

148-DWS层-用户SPU粒度下单需求-需求分析-1关联维表

320

148

23分5秒

149-DWS层-用户SPU粒度下单需求-需求分析-2订单ID去重

320

149

21分16秒

150-DWS层-用户SPU粒度下单需求-需求分析-3订单ID去重

440

150

26分44秒

151-DWS层-用户SPU粒度下单需求-思路整理&代码编写

330

151

27分28秒

152-DWS层-用户SPU粒度下单需求-JDBCUtil封装开始

360

152

20分54秒

153-DWS层-用户SPU粒度下单需求-JDBCUtil封装完成&测试

430

153

17分41秒

154-DWS层-用户SPU粒度下单需求-DimUtil封装&测试

430

154

30分48秒

155-DWS层-用户SPU粒度下单需求-关联维表优化1-旁路缓存-说明

380

155

42分20秒

156-DWS层-用户SPU粒度下单需求-关联维表优化1-旁路缓存-编码&测试

340

156

17分0秒

157-每日回顾

420

157

16分20秒

158-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-说明

320

158

13分57秒

159-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-编码介绍

350

159

26分41秒

160-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-异步函数准备工作

370

160

21分37秒

161-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-获取维表信息参数讨论

310

161

17分31秒

162-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-函数完成

380

162

17分50秒

163-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-函数测试

380

163

33分40秒

164-DWS层-用户SPU粒度下单需求-后续&测试

300

164

38分31秒

165-DWS层-省份粒度下单需求

330

165

44分17秒

166-DWS层-品牌品类用户粒度退单需求

370

166

30分55秒

167-ADS&数据可视化层-课程介绍

330

167

31分33秒

168-ADS&数据可视化层-数据接口模块-构建

310

168

21分18秒

169-ADS&数据可视化层-数据接口模块-GMV需求-编码完成）

370

169

17分37秒

170-ADS&数据可视化层-数据接口模块-GMV需求-测试

350

170

11分15秒

171-ADS&数据可视化层-数据接口模块-渠道日活需求-需求分析

440

171

29分35秒

172-ADS&数据可视化层-数据接口模块-渠道日活需求-代码完成

320

172

16分50秒

173-ADS&数据可视化层-数据接口模块-渠道日活需求-测试完成

370

173

25分34秒

174_ADS&数据可视化层（数据接口模块测试已完成&其他需求接口）

310

174

3分5秒

175-Flink优化-课程介绍

370

175

30分37秒

176-Flink优化-资源优化

440

176

23分43秒

177-Flink优化-反压处理

360

177

14分59秒

178-Flink优化-数据倾斜-现象介绍&KeyBy前数据倾斜

520

178

18分17秒

179-Flink优化-数据倾斜-KeyBy后直接聚合

450

179

15分49秒

180-Flink优化-数据倾斜-KeyBy后开窗聚合

550

180

6分36秒

181-Flink优化-KafkaSource

490

181

21分36秒

182-Flink优化-FlinkSQL

360

182

5分2秒

183-实时数仓总结-分层

400

183

10分1秒

184-实时数仓总结-ODS&DWD层

280

184

4分33秒

185-实时数仓总结-DIM层

400

185

16分59秒

186-实时数仓总结-DWS&ADS层

380

051-每日回顾

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐