文章/答案/技术大牛

发布

首页视频082-每日回顾

082-每日回顾

2022-12-022022-12-02 16:02:25播放44

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据项目之Flink实时数仓3.0/视频/082-每日回顾.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
呃，那还是一样的，把昨天的内容呢，做一个快速的回顾，OK吧，啊，那首先呢，我们昨天上午是将dim层全部都搞定。把这个维表层全部都搞定了，对吧？呃，咱们呢，就差最后一步将数据写到Phoenix啊，那我们写到Phoenix的时候呢，我们发现Phoenix它是拿这个GDBC调用的，所以呢，我们就想着，诶，那这个东西能不能用GDBCS呢，用这个连接器呢，因为官方给我们提供了，我们就用起来就比较简单一些。对吧？啊，那我们就想着我们就带着大家看了一下那个官方文档啊，它的调用方式，首先要传一个circle。然后呢，是给S里边占位符赋值的一个参数。对吧？啊，那么接下来呢，是批量提交的参数，最后一个是连接参数，你到底要连哪个。
01:00
服务对吧，哎，你给我一个驱动。给我一个URL地址，哎，那就够了，对吧？好呃，但是呢，我们发现。他这个JDVC think不太符合当前我们这个使用场景。原因就在于他那这个S语句是先给定的，在你调用之前，相当于你就得把这个S写好。对吧，而我们。现在这个流。他是有。很多张为表的。且各个为表，它的字段呢不一样。对吧，而且字段的个数也不一样，那你要统一的在外面给一个这样的一个S语句，那就给不了了。对吧，就算你用占位符，你也不知道用几个，因为它字段的个数都不确定。对吧，你要是字段不确定，你可以占位符，然后就附上对吧？但是问题在于什么呢？我连个数都不确定，那我写几个问号二我都不知道。
02:06
是不是那这个就不好了。啊，这个就不好了。啊好，那所以我们最后总结。说这个GDBC呀。他更适合的。是。往单表里边写的这种业务场景。对吧，如果说你这个流数据比较单一，未来呢，只写到一个表里边，诶那这个可以。对吧，这个非常可以nice啊，因为你的表是单个的，那你的列肯定是固定的对吧？个数固定的，列名固定的，那我们可以这样去写好好。那我们用不了接力B性，那我们就只能。自定义了。对吧，我们只能自定义啊，自定义think呢，我们肯定要用一个reach think方式，因为我们在这里边是涉及到一个写库操作。对吧，写库操作啊，这样，呃，我们要创建这个连接，在这个生命周期方法里边去创建这个连接，对吧？当然这个时候呢，我们用到了一个连接池，因为在前面我们建表的时候就说了，我们可以在open方法里面直接创建连接，让当前这个并行度只有一个连接，这种可以对吧？啊也可以用一个连接池，让一个并行度呢，用一个连接池，然后呢，不断的去取这个数据。
03:26
对吧？啊，类似这样子的啊，那上面呢，我们建表的时候并没有用连接池，那其实原因很简单啊，呃，第一个呢，想给大家介绍一下这两种方式啊，你都见识一下这种代码怎么写的，对吧？第二个呢，其实你想一下建表这块我们要用到的连接并不多，因为我们配置信息，它就是配置信息要用嘛，就见表对吧，很少很少。啊，那你46张表，就算全部都是为表，那你也只有46条数据。对吧，啊，用的很少，那你用不上，犯不上用一个连接池。
04:03
对吧，而最后呢，我们要将维表数据给他写出去。啊，其实它只有在最开始初始化的时候，可能连接数会多一些，但是到了后面，呃，因为我们所有的维表呢，都是这个属于这种叫什么呢？叫缓慢变化为对吧，他不会那么频繁的去变更这个数据啊，那在这边呢，你如果实在不想用连接池，直接在open里边创建一个连接，对吧，也可以。啊，其实也可以对吧，好，那我们呢，既然用了两种方式，我们都用一下吧，对吧？啊，那我们呢，是斯的一个数据流对吧，但是我们那个流好像叫。DMDS对吧，我当时取的名字叫DMDS啊，然后呢，呃，调用DMC方式啊，这个方式里边呢，有两个核心的方法，一个是open用来初始化连接啊，当然呢，咱们初始化连接池，另外一个呢，Inlo方法。对吧，电报方法调用数据和保存，然后呢，我们在这里边生成这个四个语句，当然呢，我们是写到一个工具类的方法里边的，对吧？啊呃，我的名字呢，叫insert value啊，当然这个方法名呢，随便这个是获取upsett circle对吧？啊，专门来取这个circle语句啊，然后呢，我们写了一个呃，工具类，在里边写了一个insert value的一个方法啊，当然那个工具类呢，你不写，直接写在里边也行，因为那个工具类啊，其实不太能够被复用。
05:29
对吧，因为他的一个呃，专业性太强了，就是说他跟业务挂钩的，就专门的往这个Phoenix里边去写这个数据，对吧？好，这是我们。昨天上午。所聊的一个内容，把数据写出去，最后呢，我们做了一个测试，对吧，那到了下午呢，我们开始聊这个DWD。对吧，我们当时分析了DWG呢，有两种实现方式，第一种。咱们直接。分流。对吧，按照表，按照这个日志数据的类型，按照业务数据的表明，对吧，直接分流把它全部拆开，这是一种，另外一种呢，我不分流，你DWD层本来就还要做数据加工，对吧？啊，因为你有可能在业务表呢，你要做招做这个什么维表退换。
06:18
啊，类似于做这样的事情啊，这个呢，我们后续再聊好好那在这个基础上呢。咱们两种实验方案，第二种呢，就直接过滤我去。消费全量的数据做过滤，对吧，然后取我们要的这个表，你去做招做微表退换，你就做什么事都行对吧，好好那么。我们对于两种方案呢，我们讨论了一下。啊，我们讨论一下第一种方案。直接分流对吧，不管怎么样，我先把所有的数据全部拆开，这种呢，他经会多经过一次卡夫卡。啊，可能诶会有效率上的一个。
07:01
差异。那第二种呢，他每一次都是消费全量数据。然后做过滤，你无论是谁，要任何一张表，消费的都是全量数据。对吧，啊，那在这种情况下呢来说呢，我们消费的数据量如果过大，你也会影响这个效率。所以最终呢，我们两种方案都用了，哎，比如说日志数据，咱们用的是先拆开。对吧，因为日志数据数据量比较大。如果你直接消费全量数据做处理。那还不如说你先经过一次卡夫卡来的效率高呢，虽然我多经过一次卡夫卡对吧，但是呢，你每一次的消费全量，然后做过滤，这个呢不好对吧，而对于业务数据，咱们的数据量呢，很小。所以呢，我们直接消费全量数据做过滤，对吧？啊，我就不落盘，因为数据量小的时候，你再去经过一次卡夫卡，反而效率会变慢。
08:02
啊，所以我们就综合了来看呢，诶经过这个数据数据量的一个讨论，我们决定两种呢都可以用，对吧？啊日志数据数据量大，我们经过一次卡发卡，那业务数据数据量小，我就不经过开发了，我直接消费全量数据做过滤，对吧，这这是有取舍的，这是一个平衡点对吧？哎，根据数据量来的。啊好，那方案定了啊，最后呢，我们就先写的是日志数据，因为它也正好属于这个流量域，对吧，我们先做的第一步事情就是说呢，未经加工的实时表，因为我们说了对于这个DWD层的数据啊，我们可能还需要做一遍加工。对吧，比如说业务数据的join围绕退化，这是我们今天说的啊，那呃，我们日数据呢，也可能要做一些加工，所以呢，未经加工的就是直接的分流。就是做直接分流处理，对吧，这里边呢，我们总共做三件事，第一。1.2过滤对吧，我们是将这种非阶层数据给它放到了测出流并打印啊，我们也看了一下对吧，得体啊那第二。
09:05
修复标记用的状态编程对吧，整个的逻辑啊，大家要清楚啊，你要是呃不太了解，你可以跟我一样，对吧，把那个图呢，把它截出来，然后呢，对着这个图去一步一步的写，当然那里边写的有很多分支，五个分支吧，但实际上我们最后写出来只有三个分支，但因为有两个分支呢，他啥也不干。既然你啥也不干，那。这个分支不要也罢，对吧，是这个意思啊，那最后呢，是这个分流啊，分流呢，就是说你要找到这里边这个关键词，最重要的是你要搞清楚这些个数据之间的。关系。对吧，就像我们说的这个错误。跟启动与页面它是共存。而启动与页面。他俩是互斥。对吧？而页面与动作，还有这个曝光，它们之间呢是包含关系，而它俩之间没有什么关系，对吧？可以存在一块，也可以不存在一块，这个无所谓的，对吧？所以根据这种关系呢，我们就分成了五个流，然后呢，把这个数据对应的写到了五个主题里边，对吧？啊昨天呢，我们也手动做了一个测试，诶把我们想要测的一些结果呢都测了一下，但是呢，还差一步，因为昨天本身就已经拖堂了，对吧？所以最后一步呢，没错，怎么呢，跟前面Mo对接起来，把整体跑一下。
10:36
对吧，把整体跑一下啊，那接下来呢，我们把这个事儿来做一下啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据项目之Flink实时数仓3.0

（81/185）

3分48秒

001_实时数仓_课程简介

500

2分38秒

002_数仓概念-数仓简介

420

11分47秒

003_数仓概念-数据分类

430

22分30秒

004_数仓概念-数仓总体介绍

430

4分48秒

005_数仓概念-项目需求分析

400

16分33秒

006_数仓概念-技术选型

390

10分53秒

007_数仓概念-系统数据流程

450

9分59秒

008_数仓概念-框架版本的选择

390

3分18秒

009_数仓概念-具体版本号选择

400

5分35秒

010_数仓概念-服务器选型

310

9分18秒

011_数仓概念-集群规模

430

2分43秒

012_数仓概念-集群资源规划

390

6分22秒

013_同步行为数据模拟-埋点简介

560

17分25秒

014_用户行为数据模拟-用户行为日志内容

520

9分32秒

015_用户行为数据模拟-埋点日志格式

650

15分56秒

016_用户行为数据模拟-克隆三台服务器

390

4分42秒

018_用户行为数据模拟-集群同步脚本

370

7分49秒

019_用户行为数据模拟-免密登录配置

350

8分54秒

020_用户行为数据模拟-安装JDK

400

4分23秒

021_用户行为数据模拟-Linux环境变量说明

420

15分32秒

022_用户行为数据模拟-模拟数据

430

58分32秒

023_用户行为数据采集-hadoop安装

340

20分6秒

024_用户行为数据采集-Hadoop项目经验

390

11分42秒

025_用户行为数据采集-Zookeeper安装

400

14分12秒

026_用户行为数据采集-Kafka安装

370

5分9秒

027_用户行为数据采集-Flume安装

380

35分53秒

028_用户行为数据采集-Flume的KafkaChannel

370

1时11分

029_用户行为数据采集-采集Flume配置

270

10分7秒

030_业务数据采集-电商业务简介

350

38分11秒

031_业务数据采集-电商业务表结构

400

23分27秒

032_业务数据采集-业务数据模拟

430

2分54秒

033_业务数据采集-业务数据通道

370

21分15秒

034_业务数据采集-Maxwell简介

350

33分26秒

035_业务数据采集-Maxwell配置

440

21分19秒

036_业务数据采集-Maxwell使用

400

3分32秒

037_业务数据采集-采集通道maxwell配置

400

2分14秒

038_实时数仓数据同步-实时数仓同步数据

470

16分43秒

039-分层介绍-离线数仓回顾

390

22分47秒

040-分层介绍-实时数仓分层-处理&存储框架概述

440

21分39秒

041-分层介绍-实时数仓分层-DIM层框架选择

440

14分40秒

042-分层介绍-实时数仓分层-DWS&ADS层框架选择

350

11分42秒

043-分层介绍-实时数仓分层-架构说明

320

16分57秒

044-建模理论-范式理论-关系型数据库

420

17分32秒

045-建模理论-维度建模-大数据数仓

420

8分32秒

046-建模理论-维度建模-事实表&维度表&构建数仓流程

400

4分48秒

047-开发环境-集群环境准备

380

9分54秒

048-开发环境-IDEA环境准备

390

4分58秒

049-ODS层-日志数据采集-测试

340

4分30秒

050-ODS层-业务数据采集-测试

370

11分58秒

051-每日回顾

390

8分33秒

052-DIM层-需求分析

410

7分19秒

053-DIM层-问题&解决思路提出

370

5分51秒

054-DIM层-优化1方案讨论

400

13分15秒

055-DIM层-优化2方案讨论

350

20分1秒

056-DIM层-优化2实施讨论

370

14分56秒

057-DIM层-思路整理

330

15分35秒

058-DIM层-代码编写-流程梳理&获取执行环境

400

15分16秒

059-DIM层-代码编写-Kafka消费者工具类封装

380

16分33秒

060-DIM层-代码编写-过滤脏数据

330

31分43秒

061-DIM层-代码编写-配置信息表-字段讨论&说明

380

10分10秒

062-DIM层-代码编写-配置信息表-准备工作

350

7分2秒

063-DIM层-代码编写-使用FlinkCDC读取配置信息表创建流

410

13分44秒

064-DIM层-代码编写-构建配置信息广播流&与主流连接

390

6分3秒

065-DIM层-代码编写-连接流处理逻辑分析

410

37分7秒

066-DIM层-代码编写-处理广播流数据

400

27分26秒

067-DIM层-代码编写-处理主流数据

420

15分58秒

068-DIM层-代码测试

320

21分39秒

069-每日回顾

340

16分22秒

070-DIM层-将数据写出-JdbcSink分析

350

12分27秒

071-DIM层-将数据写出-自定义Sink-创建连接池

350

31分16秒

072-DIM层-将数据写出-自定义Sink-拼接SQL&执行

380

13分37秒

073-DIM层-将数据写出-代码测试

320

24分54秒

074-DWD层-整体介绍&方案说明

390

15分0秒

075-DWD层-流量域-未加工事实表-需求分析

410

19分38秒

076-DWD层-流量域-未加工事实表-思路分析

400

8分54秒

077-DWD层-流量域-未加工事实表-代码编写-时间工具类

330

13分57秒

078-DWD层-流量域-未加工事实表-代码编写-消费&过滤&分组数据

350

16分15秒

079-DWD层-流量域-未加工事实表-代码编写-新老访客标记校验

270

23分3秒

080-DWD层-流量域-未加工事实表-代码编写-分流

390

20分59秒

081-DWD层-流量域-未加工事实表-写出数据&测试

370

10分40秒

082-每日回顾

440

6分59秒

083-DWD层-流量域-未加工事实表-整体测试

350

14分6秒

084-DWD层-流量域-独立访客明细表-需求分析

320

21分5秒

085-DWD层-流量域-独立访客明细表-思路分析

360

6分42秒

086-DWD层-流量域-独立访客明细表-代码编写-获取&过滤&转换数据

380

8分57秒

087-DWD层-流量域-独立访客明细表-代码编写-按照Mid去重&写出到Kafka

260

26分44秒

088-DWD层-流量域-独立访客明细表-代码编写-添加状态TTL

300

8分5秒

089-DWD层-流量域-独立访客明细表-代码测试

360

17分0秒

090-DWD层-流量域-跳出明细表-需求分析&思路一

320

13分56秒

091-DWD层-流量域-跳出明细表-思路二

330

20分21秒

092-DWD层-流量域-跳出明细表-思路三

340

28分0秒

093-DWD层-流量域-跳出明细表-代码编写

360

24分37秒

094-DWD层-流量域-跳出明细表-代码测试

380

10分1秒

095-Flink基础知识扩展-说明

420

12分46秒

096-Flink基础知识扩展-WindowJoin-介绍

350

31分22秒

097-Flink基础知识扩展-IntervalJoin

420

21分51秒

098-Flink基础知识扩展-FlinkSQLJoin-官网说明&InnerJoin编码测试

370

29分42秒

099-Flink基础知识扩展-FlinkSQLJoin-外连接测试

310

18分29秒

100-Flink基础知识扩展-FlinkSQLJoin-LookUpJoin说明&构建维表

420

100

20分46秒

101-FlinkSQLJoin-LookUpJoin编码-构建事实表&关联测试

410

101

11分12秒

102-每日回顾

370

102

7分31秒

103-DWD层-加购事实表-需求分析&思路整理

390

103

24分23秒

104-DWD层-加购事实表-DDL构建topci_db表

450

104

21分24秒

105-DWD层-加购事实表-过滤出加购数据

360

105

28分32秒

106-DWD层-加购事实表-编码完成&测试

380

106

27分23秒

107-DWD层-订单事实预处理表-需求分析&获取原始表和LookUp表

410

107

24分53秒

108-DWD层-订单事实预处理表-过滤出4张表&测试

360

108

29分55秒

109-DWD层-订单事实预处理表-关联5张表&测试

330

109

26分18秒

110-DWD层-订单事实预处理表-将数据写出&测试

300

110

18分36秒

111-每日回顾

300

111

40分2秒

112-DWD层-下单事实表

390

112

22分1秒

113-DWD层-取消订单事实表

370

113

36分56秒

114-DWD层-支付成功需求

400

114

14分34秒

115-DWD层-退单需求

280

115

17分45秒

116-DWD层-退款成功需求

360

116

21分10秒

117-DWD层-优惠券相关需求

430

117

16分56秒

118-DWD层-收藏商品、评价、用户注册需求

390

118

15分30秒

119-DWS层-整体介绍

370

119

33分4秒

120-DWS层-关键词需求-需求分析&工具类封装

260

120

33分14秒

121-DWS层-关键词需求-代码编写2

340

121

20分51秒

122-DWS层-关键词需求-代码编写-开窗聚合&ClickHouse表引擎选择

360

122

25分25秒

123-DWS层-关键词需求-编码完成&测试

340

123

7分21秒

124-每日回顾

430

124

18分4秒

125-DWS层-关键词需求-代码编写-ClickHouse建表&工具类封装-1

370

125

26分10秒

126-DWS层-关键词需求-代码编写-ClickHouse工具类封装-2

460

126

17分39秒

127-DWS层-关键词需求-代码编写-ClickHouse工具类封装-3

400

127

3分13秒

128-DWS层-关键词需求-代码最终测试

410

128

26分53秒

129-DWS层-版本渠道地区访客类别粒度页面浏览需求-需求分析&编码开始

400

129

27分11秒

130-DWS层-版本渠道地区访客类别粒度页面浏览需求-代码编写2

320

130

30分14秒

131-DWS层-版本渠道地区访客类别粒度页面浏览需求-代码测试

360

131

11分12秒

132-每日回顾

360

132

11分10秒

133-DWS层-页面浏览需求-需求分析&思路整理

360

133

8分16秒

134-DWS层-页面浏览需求-消费&转换&过滤数据

290

134

26分42秒

135-DWS层-页面浏览需求-编码完成&测试

350

135

16分44秒

136-DWS层-用户登录需求-需求分析&思路整理

450

136

29分37秒

137-DWS层-用户登录需求-编码&测试

360

137

21分41秒

138-DWS层-用户注册需求

330

138

27分27秒

139-DWS层-加购需求

390

139

6分52秒

140-每日回顾

360

140

24分56秒

141-DWS层-支付成功需求-需求分析

290

141

30分10秒

142-DWS层-支付成功需求-去重思路

290

142

32分0秒

143-DWS层-支付成功需求-思路整理&编码开始

320

143

34分42秒

144-DWS层-支付成功需求-编码完成&测试

360

144

32分7秒

145-DWS层-下单需求-需求分析&代码编写

350

145

25分35秒

146-DWS层-下单需求-编码完成&测试

370

146

13分42秒

147-每日回顾

370

147

10分38秒

148-DWS层-用户SPU粒度下单需求-需求分析-1关联维表

320

148

23分5秒

149-DWS层-用户SPU粒度下单需求-需求分析-2订单ID去重

320

149

21分16秒

150-DWS层-用户SPU粒度下单需求-需求分析-3订单ID去重

440

150

26分44秒

151-DWS层-用户SPU粒度下单需求-思路整理&代码编写

330

151

27分28秒

152-DWS层-用户SPU粒度下单需求-JDBCUtil封装开始

360

152

20分54秒

153-DWS层-用户SPU粒度下单需求-JDBCUtil封装完成&测试

430

153

17分41秒

154-DWS层-用户SPU粒度下单需求-DimUtil封装&测试

430

154

30分48秒

155-DWS层-用户SPU粒度下单需求-关联维表优化1-旁路缓存-说明

380

155

42分20秒

156-DWS层-用户SPU粒度下单需求-关联维表优化1-旁路缓存-编码&测试

340

156

17分0秒

157-每日回顾

420

157

16分20秒

158-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-说明

320

158

13分57秒

159-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-编码介绍

350

159

26分41秒

160-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-异步函数准备工作

370

160

21分37秒

161-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-获取维表信息参数讨论

310

161

17分31秒

162-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-函数完成

380

162

17分50秒

163-DWS层-用户SPU粒度下单需求-优化方案2-异步IO-函数测试

380

163

33分40秒

164-DWS层-用户SPU粒度下单需求-后续&测试

300

164

38分31秒

165-DWS层-省份粒度下单需求

330

165

44分17秒

166-DWS层-品牌品类用户粒度退单需求

370

166

30分55秒

167-ADS&数据可视化层-课程介绍

330

167

31分33秒

168-ADS&数据可视化层-数据接口模块-构建

310

168

21分18秒

169-ADS&数据可视化层-数据接口模块-GMV需求-编码完成）

370

169

17分37秒

170-ADS&数据可视化层-数据接口模块-GMV需求-测试

350

170

11分15秒

171-ADS&数据可视化层-数据接口模块-渠道日活需求-需求分析

440

171

29分35秒

172-ADS&数据可视化层-数据接口模块-渠道日活需求-代码完成

320

172

16分50秒

173-ADS&数据可视化层-数据接口模块-渠道日活需求-测试完成

370

173

25分34秒

174_ADS&数据可视化层（数据接口模块测试已完成&其他需求接口）

310

174

3分5秒

175-Flink优化-课程介绍

370

175

30分37秒

176-Flink优化-资源优化

440

176

23分43秒

177-Flink优化-反压处理

360

177

14分59秒

178-Flink优化-数据倾斜-现象介绍&KeyBy前数据倾斜

520

178

18分17秒

179-Flink优化-数据倾斜-KeyBy后直接聚合

450

179

15分49秒

180-Flink优化-数据倾斜-KeyBy后开窗聚合

550

180

6分36秒

181-Flink优化-KafkaSource

490

181

21分36秒

182-Flink优化-FlinkSQL

360

182

5分2秒

183-实时数仓总结-分层

400

183

10分1秒

184-实时数仓总结-ODS&DWD层

280

184

4分33秒

185-实时数仓总结-DIM层

400

185

16分59秒

186-实时数仓总结-DWS&ADS层

380

082-每日回顾

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐