文章/答案/技术大牛

发布

首页视频036_尚硅谷大数据技术_Flink理论_流处理API_Flink中的数据重分区操作

036_尚硅谷大数据技术_Flink理论_流处理API_Flink中的数据重分区操作

2022-12-022022-12-02 16:02:17播放37

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Flink（Java版）/视频/Flink理论部分/036_尚硅谷大数据技术_Flink理论_流处理API_Flink中的数据重分区操作.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
呃，前面给大家，呃，基本上把这个transform啊，在做中间转换计算的这个过程，所有的算子都讲解了一遍，然后关于这个data stream里边啊，呃，这里边能够做的这些可以调用的API操作，还有一些，呃，前面我们可能是没有详细给大家讲到的，比如说还有另外一大类，那大家去会想到前面我们讲这个KBY的时候，大家发现它并不是一个真正意义上的transform做的这个计算，对吧？啊，但是你也可以认为它是transform，但它其实这个transform就不是转换，它真的是转移，真的只是做了一个重分区。啊，所以大家会想到就是对于这样的算子来讲，在这个data streamam里边是不是还有其他的一些呢？啊，是不是不光是可以做一个这个P，我们当时说是基于哈西扣的重分区对吧？哎，那是不是还有其他的一些重分区方式呢？呃，确实有的啊，之前我们其实讲到这个数据传输方式的时候，是给大家提到过的，比如说这里边哦，大家看下边，这里边有这个broadcast对吧？Broadcast的话那就是。
01:09
广播对吧？啊，就是所有的这个数据来了之后，下游分区全部广播一份下去啊，这是这是比较特殊的这种用法啊，就是所有的这个数据都要，呃，下游下游的这个任务都要接收到一份啊，那另外还有就是大家看shuffle。直接就一个方法，就叫点shuffle shuffle是什么意思，我们说洗牌嘛，所以这里的洗牌其实就是跟大家说的，不是不是把牌攒齐了洗是吧，而是发牌对，随机发牌，所以这里它其实就是一个随机的把当前数据分配到下游一个并行子任务上一种方式啊，那另外还有就是大家看forward forward什么意思。哎，这就是直通对吧，或者说直传，那是不是就是只放在当前这个分区做计算啊，哎，对吧，这这就是直通啊，当然这个一般就大家可能想到没什么特殊的意义是吧？啊就是如果它本身能直通的话，我直接就传到当前分区就完事了啊，然后下面还有rebance rebance什么意思，Re balance rebance，大家看这里边的注释啊，它说的就是哎，就是它是distributed的evenly，就是even是有这个平均对吧，均匀这样一个意思啊，就是均匀的分布，分布在呃，这个下游的所有这个操作的实例里边，然后另外它是在一个什么样以一个什么样的模式呢？一个round Robin模式。
02:38
轮询的模式对吧？哎，所以这个所谓所谓的rebance，就是当前所有数据来了之后，一个一个来了之后啊，那就是接下来发送的时候，下游有两个子任务。那我这儿就是第一个来这儿，第二个来这，第三个来上边，第四个在下边对吧？哎，这就是所谓的这个轮巡的操作啊，所以整体来讲这个呃，Rebllance，我们说它其实是发生并行度改变的，前后两个任务之间的默认数据传输方式，对吧？啊，就假如说这个并行度不一样的话，它默认就是用这样的一个方式做这个，呃，重新分配的啊，那除了这个之外呢，还有另外一个特殊的叫。
03:24
的话，大家会想到它是一个类似于叫什么叫叫重新重新平衡，对吧，有点像这个重新，呃呃，就是重重新做一个均均匀化分布这样一个操作，其实跟前面那个reb啊重平衡是差不多的，那他可以认为是一个一个分组的rebance，简单来讲就是说之前我们这个不是一下子分了这个。两个分区嘛，那现在呢，比方说我现在是本来数据来了之后，上游就是有两个分区，下游呢，对下游有四个分区。
04:03
那这样的一个并行度调整。默认如果要用rebance的话，那大家想是不是相当于我上面的这个数据来了之后，1234都都都分配到下面去对吧？呃，然后下边这个任务是不是也是1234轮询各各自分配啊，那现在scale不是这样的，Scale的做法是直接对，就相当于做一个分组。上游的话就是它对应两个下游任务去做一个rebance轮询，然后下游呢，也是对应它自己的两个下游任务去做一个轮训啊，所以这样的话是不是相当于传输的范围就小一点啊，有些场景下可能这种方式可能数据传输的效率更高，对不对对吧？这个就不要完全打散的去做轮询了啊，这是在有一些特殊场景下，可能去做这样的一个数据重重分配啊啊，那另外还有一个global global什么意思啊。Global是全局，全局的意思是大家看它是所有的这个数据啊，输出之后全部都会直接丢给下游的，对下游这个处理算子的第一个实例，也就是不管下游有多少个分区，我是不是相当于直接全传输到同一个第一个分区里面去了，并且都变一了，对不对啊，所以这个一般大家要谨慎使用对吧？啊，就是如果你真的是要把所有数据全汇总到一起的话，可以用这个啊，那你如果不是想用这个的话，那那尽量不要，你这样是不是并行度就完全没用了啊，这是这个global啊，那另外还有一个比较特殊的，大家可能会想到这这是我们预定义好的朝下游传输的方式嘛，那假如说我想自定义可以吗？
05:44
可以的，大家看，还有一个叫。Custom也就是用户自定义的重分区方式，对吧。所以你看所有的这些操作啊，这里边的这些data STEM API里面可以调用的方法都涉及到的是数据重分区，数据在任务之间传输的方式的一个定义，对吧？啊，那关于这这里的这个position customer它它的这个定义到底是什么意思呢？你看它的定义就是这里边有一个partitioner分区器，对不对，那大家想这个分区器是干啥呢？
06:18
这就是你当前给我定义一个key，然后哎，就是定义一个我当前到底要，呃，就是这里有number of positions对吧，就是你当当前到底有几个分区，然后最后我就返回一个你到底要去哪个分区，对吧？啊就是这样的一个输入输出的关系嘛。那所以大家看到既然是自定义分区器，是不是必须得有一个K啊，啊，我现在又是thent streamam，你并没有没有做KBY啊，那这个K从哪来呢？那你看是不是后边要自己再去定义一个key select啊，跟我们那个KBY操作差不多对吧？啊，所以这是这个用户自定义这个分区器啊，所以flink里边整体来讲，你看这个Spark里边，呃，有有的这些操作啊，类似的这些shuffle的这些功能，这里边其实都是有的，只不过呢，一般情况我们在flink里边这个操作比较比较少用，因为它是来一个处理一个，只是直接发牌嘛，所以我们一般不会专门去专门的去说这个杀后这步操作，对吧？啊，就直接在这个代码里边，其实就已经涵盖了，一般我们也不专门调用，呃，这里边我们可以简单的给大家写一个代码，稍微的测试一下啊。
07:29
去new一个class，这个是。Transform test6。呃，这个叫做，呃，我们就叫做重新分区对吧？好呃，然后在这个里边，我们首先还是把前面的。这个算了啊，这个本身分区比较简单，我们就直接简单的给大家把这个过程写出来吧，Get execution environment，然后DV先定义出来啊，然后首先我把这个如果要是原始状态下，我们之前都是把这个全局并行都设成一的，对吧？但大家想如果我要检测它的这个重分区状态的话，是不是不应该给一啊，对吧？我这里边可以给大一点啊，我给一个四，然后接下来我可以从文件里面去读取数据，这个还是一样的啊，我们直接把那个读出来。
08:30
然后这个我也不做转换了啊，直接读出来，后边把这个引入后边可以直接做一个输出对吧。Input。呃，这个就是我们原始的这个input stream啊，最后不要忘记把这个execute执行起来。呃，这里边少了这个throw exception对吧？好，这是我们这个完整的流程，然后这里边我们还可以做一个重分区操作对吧？呃，我们我们这个啊，直接给大家做一个杀吧，非常简单，直接input stream，大家想我直接杀uffle是不是就可以对吧？呃，这里边我可以得到一个shauffle stream，好，呃，下边来一个这个shuffle stream.print。
09:29
闪，大家可以看看这个效果到底是什么样的啊。运行一下。我们看一下最最呃，后边这个执行出来的结果啊，好大家看一眼。首先input的这里面，大家看这个这个是怎么怎么样一个一个输入的。哎，大家看这个341有四条数据对吧，其他这个七六七十各是一条数据，它这个其实就是几乎就是均匀的分配在这个1234里边，对不对啊，就完全是这样做的这个操作啊，然后后边我们做一次那个沙否之后，诶大家看是不是就相当于这个分区就完全调整了呀？啊然后这里边啊，当然这里边大家看这个打乱的好像不是完全的随机，就好像是一和四两个对吧？啊，主要是分配在这个一和四两个，这主要是因为我们数据比较少嘛，如果数据比较多的时候，这个呃随机分配就会比较明显了，那其实你像我们前面的这一个就是1234，为什么看起来它更均匀呢？
10:35
其实大家会想到前边如果要是对应的啊，我们读取数据之后，然后去做这个，呃，后边做这个具具体的这个转换，那其实前边是不是读取数据，我们从这个文件里边读取数据，假如说并行度只能是一的话，那后边从一变成四的这个并行度是不是就是一个，就是一个轮训re balanceance的过程啊，那所以它其实是完全均匀的啊，反而比我们后边这个直接杀火更均匀，对吧？啊，那后边如果说你还想做一个其他的那个测试的话，比方说KY，我们前面其实也测过了，对吧？呃，我这个input stream啊。
11:11
如果要是直接做一个这个K的话。比方说我们，呃，当前这个就不能基于FS了啊，如果要是想做key的话，大家会想到是不是前面我还要再做一个那个转换操作啊。这个才方便一些，对吧，我还要把这个定义出来，定义一个这个sensor reading类型的data stream啊，那这里边我需要K的话，用这个data stream k by当前的ID。呃，那比方说这里我就直接把它打印出来了啊，这个是K。大家想一下，这个k buy出来的结果跟前面的这个shuffle或者是直接打印的这个结果有什么区别啊？我们把上面这个其实也可以改成data stream啊，大家这样的话可能看的会更明显一点，重新运行一下。
12:08
好，再来看一下当前这个K败的结果。大家看，呃，首先就是我之前这个input的时候，这里边的这个sensor reading，呃，它有一个特点，其实就是说整个都都都很乱，对吧，这个分配就都是都是很乱的啊，你即使都是341的数据，它是不是也都是一四，大家看这个三有可能分配到不同的地方啊，呃，然后那个不同的这个ID也有可能分配到相同的这个一个分区里边去，对吧？啊，这个是没准的，然后后边如果说这个沙否的话，就是在之前的那个基础上做了一个打乱，这个大家都知道，那K败呢。K派大家看一下这个K派七，这是在四上面对吧？啊，当然这个后面没有七了啊，十在二上面，一在三上面，然后大家看后边的一是不是都在三上面啊，这就是K外的这个特点对吧？原则就是这样的嘛，KY是不是按照哈西扣的重分区相同K的那个数据是不是一定在同一个同一个分区上啊啊当然就是说同一个分区的话，VB都一定都是呃都都有这个呃相同的一个K对吧？它有可能有多个K，因为我们说呃这个不同的K，最后我们的哈希code是要再去取模对吧，分配到对应分区上的啊，所以大家通过这个应该是看得很明显啊，这个结果能够看得很明显。
13:31
啊，然后上面那我就把这个先先注掉吧，对吧，不要影响我们后边的这个测试啊，那最后再给大家看一个比较特殊的这个global吧。呃，这个我们基于data stream啊，或者说input stream也一样，对吧，直接调一个这个global，然后print啊，这个这个不是皮，这个是global啊。
14:00
好，大家可以想象一下这个global输出的结果是什么？就global我们说它是把所有的数据全部发送到下游的，呃，第一个分区里面去，对吧，所以当前它最终输出的是不是全是一啊，哎，大家看这个就是直接就能想到最后的这样的一个结果啊，这就是关于这个数据传输和重分区的一个过程。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink（Java版）/视频/Flink理论部分

（36/99）

5分36秒

001_尚硅谷大数据技术_Flink理论_Flink简介（一）Flink是什么

410

13分11秒

002_尚硅谷大数据技术_Flink理论_Flink简介（二）为什么要用Flink

370

12分49秒

003_尚硅谷大数据技术_Flink理论_Flink简介（三）流数据处理的行业

400

16分17秒

004_尚硅谷大数据技术_Flink理论_Flink简介（四）流处理的发展演变

320

9分14秒

005_尚硅谷大数据技术_Flink理论_Flink简介（五）Flink的特点

350

7分44秒

006_尚硅谷大数据技术_Flink理论_Flink简介（六）Flink vs Spark Streaming

350

26分36秒

007_尚硅谷大数据技术_Flink理论_简单上手（一）批处理WordCount

380

13分51秒

008_尚硅谷大数据技术_Flink理论_简单上手（二）流处理WordCount

300

10分59秒

009_尚硅谷大数据技术_Flink理论_简单上手（三）流式数据源测试

410

27分53秒

010_尚硅谷大数据技术_Flink理论_Flink部署（一）Flink安装和配置

420

24分18秒

011_尚硅谷大数据技术_Flink理论_Flink部署（二）Job的提交运行

400

7分5秒

012_尚硅谷大数据技术_Flink理论_Flink部署（三）资源的分配和并行度测试

420

6分54秒

013_尚硅谷大数据技术_Flink理论_Flink部署（四）命令行提交Job

450

14分7秒

014_尚硅谷大数据技术_Flink理论_Flink部署（五）Yarn和K8s平台的Flink部署

450

11分29秒

015_尚硅谷大数据技术_Flink理论_运行时架构（一）Flink四大组件

340

4分48秒

016_尚硅谷大数据技术_Flink理论_运行时架构（二）作业提交流程_抽象架构

370

4分48秒

017_尚硅谷大数据技术_Flink理论_运行时架构（三）Yarn上作业提交流程

370

7分26秒

018_尚硅谷大数据技术_Flink理论_运行时架构（四）作业调度原理及思考问题

360

27分16秒

019_尚硅谷大数据技术_Flink理论_运行时架构（五）Slot和任务调度

380

14分24秒

020_尚硅谷大数据技术_Flink理论_运行时架构（六）Slot和并行度的关系

440

11分0秒

021_尚硅谷大数据技术_Flink理论_运行时架构（七）程序结构和数据流图

340

19分37秒

022_尚硅谷大数据技术_Flink理论_运行时架构（八）数据传输和任务链

430

5分43秒

023_尚硅谷大数据技术_Flink理论_流处理API_创建执行环境

360

16分38秒

024_尚硅谷大数据技术_Flink理论_流处理API_Source（一）从集合读取数据

430

4分22秒

025_尚硅谷大数据技术_Flink理论_流处理API_Source（二）从文件读取数据

420

10分45秒

026_尚硅谷大数据技术_Flink理论_流处理API_Source（三）从kafka读取数据

370

22分21秒

027_尚硅谷大数据技术_Flink理论_流处理API_Source（四）自定义测试数据源

400

14分42秒

028_尚硅谷大数据技术_Flink理论_流处理API_Transform（一）基本转换操作

270

29分53秒

029_尚硅谷大数据技术_Flink理论_流处理API_Transform（二）滚动聚合

400

12分4秒

030_尚硅谷大数据技术_Flink理论_流处理API_Transform（三）reduce聚合

480

12分57秒

031_尚硅谷大数据技术_Flink理论_流处理API_Transform（四）分流

390

14分1秒

032_尚硅谷大数据技术_Flink理论_流处理API_Transform（五）connect合流

330

6分28秒

033_尚硅谷大数据技术_Flink理论_流处理API_Transform（六）union合流

330

6分21秒

034_尚硅谷大数据技术_Flink理论_流处理API_Flink支持的数据类型

370

25分10秒

035_尚硅谷大数据技术_Flink理论_流处理API_Flink中的UDF函数类

350

14分27秒

036_尚硅谷大数据技术_Flink理论_流处理API_Flink中的数据重分区操作

370

17分39秒

037_尚硅谷大数据技术_Flink理论_流处理API_Sink（一）_Kafka

470

17分5秒

038_尚硅谷大数据技术_Flink理论_流处理API_Sink（二）_Redis

410

19分18秒

039_尚硅谷大数据技术_Flink理论_流处理API_Sink（三）_Es

300

18分25秒

040_尚硅谷大数据技术_Flink理论_流处理API_Sink（四）_JDBC

390

7分18秒

041_尚硅谷大数据技术_Flink理论_Window API（一）_基本概念

350

16分33秒

042_尚硅谷大数据技术_Flink理论_Window API（二）_窗口类型

360

17分18秒

043_尚硅谷大数据技术_Flink理论_Window API（三）_窗口分配器

330

19分24秒

044_尚硅谷大数据技术_Flink理论_Window API（四）_窗口函数（一）时间窗口u增量聚合

340

14分45秒

045_尚硅谷大数据技术_Flink理论_Window API（五）_窗口函数（二）时间窗口全窗口聚合

370

12分59秒

046_尚硅谷大数据技术_Flink理论_Window API（六）_窗口函数（三）计数窗口测试

310

20分8秒

047_尚硅谷大数据技术_Flink理论_Window API（七）_其它可选API

340

6分55秒

048_尚硅谷大数据技术_Flink理论_时间语义（一）_时间语义概念

440

11分18秒

049_尚硅谷大数据技术_Flink理论_时间语义（二）_时间语义的应用

380

4分51秒

050_尚硅谷大数据技术_Flink理论_时间语义（三）_事件时间语义的设置

460

21分13秒

051_尚硅谷大数据技术_Flink理论_Watermark（四）_Watermark概念和原理

390

17分48秒

052_尚硅谷大数据技术_Flink理论_Watermark（五）_Watermark特点和行为

480

9分0秒

053_尚硅谷大数据技术_Flink理论_Watermark（六）_Watermark在任务间的传递

340

21分44秒

054_尚硅谷大数据技术_Flink理论_Watermark（七）_Watermark在代码中的设置

380

10分41秒

055_尚硅谷大数据技术_Flink理论_Watermark（八）_Watermark的设定原则

400

11分59秒

056_尚硅谷大数据技术_Flink理论_事件时间语义下的窗口测试（一）

380

15分48秒

057_尚硅谷大数据技术_Flink理论_窗口起始点和偏移量

360

9分20秒

058_尚硅谷大数据技术_Flink理论_事件时间语义下的窗口测试（二）迟到数据处理

370

9分7秒

059_尚硅谷大数据技术_Flink理论_状态管理（一）状态定义

330

21分11秒

060_尚硅谷大数据技术_Flink理论_状态管理（二）算子状态

440

26分41秒

061_尚硅谷大数据技术_Flink理论_状态管理（三）键控状态

380

16分29秒

062_尚硅谷大数据技术_Flink理论_状态编程_温度跳变报警

420

15分56秒

063_尚硅谷大数据技术_Flink理论_并行任务Watermark传递测试

380

21分58秒

064_尚硅谷大数据技术_Flink理论_状态管理（四）状态后端

420

13分31秒

065_尚硅谷大数据技术_Flink理论_ProcessFunction（一）整体介绍和分类

330

24分55秒

066_尚硅谷大数据技术_Flink理论_ProcessFunction（二）KeyedProcessFunction测试

360

25分30秒

067_尚硅谷大数据技术_Flink理论_ProcessFunction（三）应用案例_一段时间内温度连续上升

380

10分2秒

068_尚硅谷大数据技术_Flink理论_ProcessFunction（四）应用案例_高低温分流

370

11分21秒

069_尚硅谷大数据技术_Flink理论_容错机制（一）检查点概念

370

6分39秒

070_尚硅谷大数据技术_Flink理论_容错机制（二）从检查点做故障恢复

330

14分54秒

071_尚硅谷大数据技术_Flink理论_容错机制（三）检查点算法思路和Barrier

350

22分14秒

072_尚硅谷大数据技术_Flink理论_容错机制（四）检查点具体算法

370

7分23秒

073_尚硅谷大数据技术_Flink理论_容错机制（五）保存点

390

23分6秒

074_尚硅谷大数据技术_Flink理论_容错机制（六）检查点和重启策略配置

410

9分38秒

075_尚硅谷大数据技术_Flink理论_状态一致性（一）一致性概念和分类

430

8分6秒

076_尚硅谷大数据技术_Flink理论_状态一致性（二）端到端状态一致性

390

5分12秒

077_尚硅谷大数据技术_Flink理论_状态一致性（三）幂等写入

340

18分58秒

078_尚硅谷大数据技术_Flink理论_状态一致性（四）事物写入_预写日志和两阶段提交

370

18分29秒

079_尚硅谷大数据技术_Flink理论_状态一致性（五）事物写入_Flink和Kafka连接保证状态一致性

350

24分1秒

080_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（一）_基本介绍和简单示例

390

6分59秒

081_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（二）_基本程序结构

380

12分36秒

082_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（三）_表环境配置

310

21分50秒

083_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（四）_创建表_从文件读取数据

470

15分55秒

084_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（五）_表的查询

390

8分10秒

085_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（六）_表的输出_输出到文件

320

16分32秒

086_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（七）_Kafka数据管道测试

330

8分1秒

087_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（八）_更新模式

410

10分8秒

088_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（九）_输出到其它外部系统

310

9分33秒

089_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十）_表和流的转换

350

19分35秒

090_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十一）_动态表和持续查询

340

12分22秒

091_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十二）_处理时间特性

330

10分9秒

092_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十三）_事件时间特性

330

25分49秒

093_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十四）_分组窗口

300

19分14秒

094_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十五）_开窗函数

390

14分44秒

095_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十六）_系统内置函数

310

21分22秒

096_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十七）_标量函数

340

18分50秒

097_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十八）_表函数

370

20分0秒

098_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十九）_聚合函数

380

7分31秒

099_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（二十）_表聚合函数

420

036_尚硅谷大数据技术_Flink理论_流处理API_Flink中的数据重分区操作

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐