文章/答案/技术大牛

发布

首页视频104.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（四）_批量消费Kafka数据测试

104.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（四）_批量消费Kafka数据测试

2022-12-022022-12-02 16:02:28播放48

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷Flink从入门到实战（scala版）/视频/104.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（四）_批量消费Kafka数据测试.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们已经用这个flink作为数据源读取数据，做了一个简单的测试啊，那当然有同学可能会发现，如果要在呃实际做这个测试的过程当中，如果说我这么一条一条这么去输入数据的话，这显然就有点太麻烦了，对吧？呃，如果说要这样去做的话，我们我我们当然可以是在这个地方，就是呃，你不停的去去producer里边去把这个数据输入，但是如果说我们是想批量化的读取这个，呃，就是文件已经都放在这儿了，对吧？我们现在是想直接用它来做一个测试，但是呢，我们又不想直接读取文件，因为我们实际项目上线是要用到这个卡夫卡的数据源嘛，所以接下来呢，我们就还是把这个数据源用这里边的卡夫卡，然后接下来呢，诶，我们直接自己写一个类似于脚本程序，或者说我们额外的一个处理程序去把，啊，就是文件里面的数据呢，一条一条读出来，去向卡夫卡里边。
01:00
去写入对吧，就类似于我们自己去写一个卡夫卡producer的一个生产生产程序，然后接下来我们把这个代码写起来，它就会自动的帮我们把所有数据输入做一个测试啊，接下来我们可以看一看这个效果啊啊，那这一部分我们就直接在下边去新建一个代码，呃，当然这个也是一个object，因为类似于一个脚本了，对吧，我这里边直接就叫做卡夫卡producer。U啊，那接下来在这个代码里边，其实我只要执行一个到卡夫卡里边，写入到某一个topic，某一个主题里边的这样一个操作，实现就完事了，对吧？那主要就是两步，呃，就是从文件里边读取数据，然后把它写入，创建一个卡普塔producer，那这个过程我们可能就需要引入卡普塔客户端了，之前我们一开始就引入过，所以接下来呢，哎，我直接把它包成一个方法来写吧，比方说我这个叫做呃，Right to，卡夫卡里边呢，可以传一个参数，就是当前的hot items，这个topic，对吧？那接下来我们主要就是自己实现这样一个方法，整体的流程就是这样，我把这个定义成topic。
02:19
不需要有任何的返回值啊，因为我们只是在用这个卡夫卡producer去发送数据啊，啊，那这里边首先还是把这个该定义的配置项我应该要定义出来对吧？哎，你有一个proper，这个大家如果要是说呃，就是简单去操作的话啊，可以直接把这里边的很多东西抄过来啊，比方说我把这个一抄先复制过来，我们再看一看哪些东西要改就完了嘛，那现在我们不是去创建消费者了，是要一个生产者，所以说消费者组当然就不需要了，那另外我们创建消费者的时候，这里边要的是反序列化的这个工具izer对吧？那但是现在呢，我们要既然是一个生产者producer，那应该要的是sizer，对吧？哎，这里边传这个就完事了，好，然后接下来我们在呃后边去直接把这一个生产者创建出出来producer，我们就要。
03:19
一个卡夫卡producer，这个就需要从诶大家看啊，当前导包的话，我们用的就是卡夫卡clients里边的producer把它引入，当时我们是导入了这个卡夫卡客户端的啊，然后里边本身的数据类型，我们当前key和value，大家看到这里边它这个泛型的定义啊。这里边泛型的定义是有两个，一个K一个value的，所以这里边呢，我们一般写入的时候就全都是字符串嘛，对吧？直接用这个string类型把它写入就可以了，那后边再去传入参数的时候，最简单的一种方式，大家看下面的这个，呃，就是我们传参的这种构造方法啊，最简单的就是传一个properties对吧？啊，前面我们既然都已经定义好了嘛，你要是不在这定义的话，我们就在上面去定义这个zeroizer对吧，其实是一样的啊，那这里边我们直接把上面定义好的proper传入，这样就构建出了producer对吧？啊，然后接下来其实就是读取数据了啊，我们说从文件读取数据，而且接下来是逐行行写入卡卡啊，所以接下来我们首先是要定义一个，呃，就是从文件，就是用调用系统的那个IO的S。
04:43
方法对吧？从文件里边应该要把这个当前的每一行先拿出来，然后再去遍历，这样的话就可以，那我们这里边定义一个，呃，Buffer source对吧？Buffer的source调用当前系统IO的source方法，大家之前还记得skyla里边的这个读取数，读取文件的这个方法对吧？From fair里边要把当前的文件路径传入copy pass传进来，读进来之后那就是一个for循环了，遍历里边的每一行啊，那这里边的每一行我们从这个八分的S里边拿出来，接下来就是要定义一个最后发送的一个数据，Record new，一个producer record。
05:34
生产者生产出来的数据记录对吧？那同样还是k value string都是string类型里边，那就是这里边我们看一下它的这个构造，构造方法啊里边呃，要传很多这个参数，最简单的传参方式呢，诶大家看到就是传一个topic，然后传K和value，这里边我们不定义K的话，直接传value就够了，对吧，最简单两个参数就够了，所以这里边我们非常简单，把这个当前的这个定义啊，直接放在这个hot，哎，呃，当前我们应该是已经传进来的那个topic，所以直接用传进来的topic，另外呢，把当前的line作为value传入，诶这就这就搞定了，对吧？呃，然后这里边大家还要注意一下，就是呃，我们定义的这个producer record这里啊啊，这里我们用这个客户端里边的这个producer record，对吧，我们看一下当前没有去实现的这一个。
06:34
哦，这里边我们的这个V本身应该是string类型对吧？应该实现的就是当前的这一个producer record的这个实现方法，但是这里边还在报错啊，大家发现就是这里边我们呃，这个读取文件之后拿到的是一个buffer source，所以你如果要想拿到string类型的每一行的话，那其实应该要调用它的这个有一个getlines方法对吧？这里边拿到的这这个这才是我们真正的一个string类型的一个able类型对吧？啊，这样的话拿到的这个line就是一个string类型了，所以这样的话就不会报错，要不然的话这个数据类型是过不了的，好，然后我们得到这个当前的这个数据之后，那就可以用producer，前面我们不是定义了producer吗？发送数据就完事了，对吧？调用这个producer的send方法，把record发送出去啊，就这么简单啊啊，那当然最后这个for循环把这个便利完成之后，我们把这个producer关闭close啊，这就是一个完整的流程，好。
07:34
那接下来我们给大家再整体做一个测试，那测试的时候其实就是这边要起消费者对吧，我们把这个消费者先起起来啊，然后那个卡夫卡那边是起着的，这边再起一个生产者，类似于这是一个调用了生产者的一个脚本程序啊，所以这两个代码我们同时把它起起来，大家看一下效果怎么样，好把这个也提起来。大家看到这里边我们这个运行报错了啊，然后这报的错是卡夫卡，这里边这个string zeroizer，这是一个a not an instance对吧，Of sializer，我们要传的是sializer啊，那这里边我们只把那个参数，就这里边我把这个改成了erializer，那里边传的这个类没没改对吧？哎，这里边本来我们应该是要传一个这个theializer的，这前面给的时候还是有点粗心啊，大家注意前面你这一个字段要改，配置项要改，我们后边的这个类当然也得改，对吧，给一个sizer，然后再执行一下。
08:33
重新执行。好，大家看这边代码已经提起来了，然后接下来这部分代码我们没有任何的输出对吧？我们最后的输出是，诶大家看这里边已经在输出了啊，而且我们这边是会输出当前的每一条数据和那个聚合结果，所以大家看是诶隔一段时间有大量的这个聚合结果输出，然后会有对应的一个当前我们窗口的一个统计结果输出，对吧？啊，这已经是在做这个操作了，然后我们会看到这边如果要是说读取这个数据啊，已经读取完毕，已经把这个数据全部写入到卡夫卡的话，其实我们知道这两个代码其实没什么关系，对吧？啊，就是这部分我们可以认为这就是一个脚本了，他只负责诶大家看这边已经跑完了，运行结束了，对吧？他只负责把这个数据读出来，塞到卡夫卡里边去，其实跟我们这里边的这个flink流失处理程序没有任何的直接联系，而我们这里边呢，只是直接从卡夫卡那边去消费数据，对吧？啊，跟那边其实也没关系，所以那边跑完就跑完了，这边我们持续去。
09:37
对，去读取数据就完事了啊，这就是这样的一个测试的过程，我们在工作当中有时候想要用这个快速测试的方法啊，而且不想改我们的这个，呃，文件里边就是当前我们读取文件的时候，不想改我们的源码，这里边本来应该提交到生产环境，应该是基于卡夫卡去消费数据的，你不想改这个源码的话，那我们就写一个脚本去测。
10:01
这是一个实现啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷Flink从入门到实战（scala版）

（104/137）

10分49秒

001.尚硅谷_Flink-Flink简介

500

19分45秒

002.尚硅谷_Flink-Flink应用场景

480

11分3秒

003.尚硅谷_Flink-流式处理的提出

370

15分16秒

004.尚硅谷_Flink-流式处理的演变

340

16分33秒

005.尚硅谷_Flink-Flink的特点

340

23分57秒

006.尚硅谷_Flink-批处理wordcount

520

20分13秒

007.尚硅谷_Flink-流处理wordcount

370

19分14秒

008.尚硅谷_Flink-流处理wordcount扩展测试和说明

410

26分46秒

009.尚硅谷_Flink-Flink集群部署

470

22分34秒

010.尚硅谷_Flink-提交Job

400

7分30秒

011.尚硅谷_Flink-命令行提交Job

350

12分50秒

012.尚硅谷_Flink-其它方式集群部署

360

8分35秒

013.尚硅谷_Flink-运行时架构_运行时组件

380

13分22秒

014.尚硅谷_Flink-运行时架构_作业提交流程

420

16分27秒

015.尚硅谷_Flink-运行时架构_任务调度原理（一）_并行度和slot

350

17分22秒

016.尚硅谷_Flink-运行时架构_任务调度原理（二）_slot共享

460

6分15秒

017.尚硅谷_Flink-运行时架构_任务调度原理（三）_slot共享示例

290

25分35秒

018.尚硅谷_Flink-运行时架构_任务调度原理（四）_执行图和任务链

290

12分20秒

019.尚硅谷_Flink-运行时架构_任务调度原理（五）_自定义任务调度规则

340

16分18秒

020.尚硅谷_Flink-流处理API_Source（一）_从集合和文件读取数据

380

21分32秒

021.尚硅谷_Flink-流处理API_Source（二）_从Kafka读取数据

430

24分49秒

022.尚硅谷_Flink-流处理API_Source（三）_自定义Source

410

6分49秒

023.尚硅谷_Flink-流处理API_Transform（一）_简单转换算子

320

19分15秒

024.尚硅谷_Flink-流处理API_Transform（二）_简单分组聚合

380

11分20秒

025.尚硅谷_Flink-流处理API_Transform（三）_reduce聚合

320

12分23秒

026.尚硅谷_Flink-流处理API_Transform（四）_分流操作

350

19分54秒

027.尚硅谷_Flink-流处理API_Transform（五）_合流操作

290

9分39秒

028.尚硅谷_Flink-流处理API_Flink支持的数据类型

420

19分40秒

029.尚硅谷_Flink-流处理API_函数类和富函数类

280

18分54秒

030.尚硅谷_Flink-流处理API_Sink（一）_文件

410

10分44秒

031.尚硅谷_Flink-流处理API_Sink（二）_Kafka

430

18分29秒

032.尚硅谷_Flink-流处理API_Sink（三）_Redis

360

16分42秒

033.尚硅谷_Flink-流处理API_Sink（四）_ElasticSearch

350

17分47秒

034.尚硅谷_Flink-流处理API_Sink（五）_MySQL

480

7分21秒

035.尚硅谷_Flink-流处理API_Window API_窗口概念

360

10分12秒

036.尚硅谷_Flink-流处理API_Window API_窗口类型

330

27分16秒

037.尚硅谷_Flink-流处理API_Window API_窗口分配器

450

20分59秒

038.尚硅谷_Flink-流处理API_Window API_窗口函数及其它可选API

410

15分5秒

039.尚硅谷_Flink-流处理API_Window API_窗口计算测试

270

17分56秒

040.尚硅谷_Flink-时间语义

300

4分32秒

041.尚硅谷_Flink-时间语义的设置

350

19分5秒

042.尚硅谷_Flink-Watermark概念

370

15分56秒

043.尚硅谷_Flink-Watermark原理和特点

320

8分7秒

044.尚硅谷_Flink-Watermark传递

260

16分32秒

045.尚硅谷_Flink-Watermark代码中引入

290

7分8秒

046.尚硅谷_Flink-自定义Watermark生成机制

290

16分10秒

047.尚硅谷_Flink-事件时间语义下的窗口测试

360

9分20秒

048.尚硅谷_Flink-窗口起始点的确定

360

8分7秒

049.尚硅谷_Flink-状态管理（一）_状态的概念

400

15分13秒

050.尚硅谷_Flink-状态管理（二）_算子状态和键控状态

290

27分24秒

051.尚硅谷_Flink-状态管理（三）_状态在代码中的定义和使用

330

17分14秒

052.尚硅谷_Flink-状态编程示例（一）

380

17分29秒

053.尚硅谷_Flink-状态编程示例（二）

410

23分23秒

054.尚硅谷_Flink-ProcessFuntion_基本概念和使用

360

32分49秒

055.尚硅谷_Flink-ProcessFuntion_定时器应用示例

320

9分44秒

056.尚硅谷_Flink-ProcessFuntion_侧输出流应用示例

360

15分35秒

057.尚硅谷_Flink-状态后端

390

13分30秒

058.尚硅谷_Flink-容错机制_检查点概念和原理

280

25分45秒

059.尚硅谷_Flink-容错机制_检查点算法

380

26分28秒

060.尚硅谷_Flink-容错机制_checkpoint配置

350

8分20秒

061.尚硅谷_Flink-容错机制_重启策略配置

440

7分31秒

062.尚硅谷_Flink-保存点

460

10分45秒

063.尚硅谷_Flink-状态一致性_基本概念

400

8分42秒

064.尚硅谷_Flink-状态一致性_Flink端到端状态一致性的保证

390

23分34秒

065.尚硅谷_Flink-状态一致性_幂等写入和事务写入

410

18分19秒

066.尚硅谷_Flink-状态一致性_Flink与Kafka连接的状态一致性

400

22分2秒

067.尚硅谷_Flink-Table API和Flink SQL_基本概念和示例程序

400

9分21秒

068.尚硅谷_Flink-Table API和Flink SQL_基本程序结构

340

15分42秒

069.尚硅谷_Flink-Table API和Flink SQL_表执行环境

360

19分13秒

070.尚硅谷_Flink-Table API和Flink SQL_表的概念和从文件读取数据

410

9分28秒

071.尚硅谷_Flink-Table API和Flink SQL_从Kafka读取数据

340

11分3秒

072.尚硅谷_Flink-Table API和Flink SQL_表的查询转换

390

8分24秒

073.尚硅谷_Flink-Table API和Flink SQL_DataStream和表的转换

400

25分13秒

074.尚硅谷_Flink-Table API和Flink SQL_输出到文件

320

10分50秒

075.尚硅谷_Flink-Table API和Flink SQL_更新模式

310

17分40秒

076.尚硅谷_Flink-Table API和Flink SQL_Kafka管道测试

380

18分17秒

077.尚硅谷_Flink-Table API和Flink SQL_输出到ES

340

8分8秒

078.尚硅谷_Flink-Table API和Flink SQL_输出到MySQL

390

11分33秒

079.尚硅谷_Flink-Table API和Flink SQL_表转换成流

290

7分6秒

080.尚硅谷_Flink-Table API和Flink SQL_流处理和SQL查询的不同

340

12分23秒

081.尚硅谷_Flink-Table API和Flink SQL_动态表和持续查询

430

12分49秒

082.尚硅谷_Flink-Table API和Flink SQL_持续查询示例具体过程

410

20分15秒

083.尚硅谷_Flink-Table API和Flink SQL_时间特性（一）_处理时间

340

14分15秒

084.尚硅谷_Flink-Table API和Flink SQL_时间特性（二）_事件时间

330

13分10秒

085.尚硅谷_Flink-Table API和Flink SQL_窗口（一）_分组窗口

440

18分42秒

086.尚硅谷_Flink-Table API和Flink SQL_窗口（二）_分组窗口测试

400

11分57秒

087.尚硅谷_Flink-Table API和Flink SQL_窗口（三）_Over窗口

380

13分1秒

088.尚硅谷_Flink-Table API和Flink SQL_窗口（四）_Over窗口测试

340

11分3秒

089.尚硅谷_Flink-Table API和Flink SQL_函数（一）_系统内置函数

310

14分38秒

090.尚硅谷_Flink-Table API和Flink SQL_函数（二）_UDF函数_标量函数

430

17分18秒

091.尚硅谷_Flink-Table API和Flink SQL_函数（三）_UDF函数_表函数

350

26分57秒

092.尚硅谷_Flink-Table API和Flink SQL_函数（四）_UDF函数_聚合函数

410

27分55秒

093.尚硅谷_Flink-Table API和Flink SQL_函数（五）_UDF函数_表聚合函数

370

8分11秒

094.尚硅谷_Flink项目-电商用户行为分析_批处理和流处理以及项目选型

350

15分26秒

095.尚硅谷_Flink项目-电商用户行为分析_用户行为分析应用场景

370

9分11秒

096.尚硅谷_Flink项目-电商用户行为分析_模块设计和数据分析

440

21分2秒

097.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（一）

350

9分6秒

098.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（二）

400

10分2秒

099.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_其它需求

400

100

10分20秒

100.尚硅谷_Flink项目-电商用户行为分析_项目框架搭建

380

101

27分53秒

101.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（一）_窗口聚合

360

102

27分13秒

102.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（二）_排序统计输出

390

103

20分50秒

103.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（三）_从Kafka消费数据测试

450

104

10分2秒

104.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（四）_批量消费Kafka数据测试

480

105

28分42秒

105.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（五）_Table API和SQL实现

350

106

26分5秒

106.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（一）_开窗聚合统计

250

107

9分46秒

107.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（二）_统计结果排序输出

350

108

21分3秒

108.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（三）_乱序数据的处理

420

109

21分40秒

109.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（四）_保证状态更新结果正确

390

110

20分38秒

110.尚硅谷_Flink项目-电商用户行为分析_PV统计（一）_基本实现

420

111

19分21秒

111.尚硅谷_Flink项目-电商用户行为分析_PV统计（二）_数据并行的优化

320

112

15分27秒

112.尚硅谷_Flink项目-电商用户行为分析_UV统计（一）_基本实现

430

113

30分47秒

113.尚硅谷_Flink项目-电商用户行为分析_UV统计（二）_布隆过滤器去重思路和程序架构

350

114

9分11秒

114.尚硅谷_Flink项目-电商用户行为分析_UV统计（三）_布隆过滤器简单实现

340

115

23分31秒

115.尚硅谷_Flink项目-电商用户行为分析_UV统计（四）_UV去重的布隆过滤器实现

300

116

17分2秒

116.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（一）_自定义数据源

480

117

20分43秒

117.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（二）_开窗聚合统计输出

320

118

19分18秒

118.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（一）_基本需求实现

310

119

14分27秒

119.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（二）_刷单行为过滤思路和整体框架

380

120

23分19秒

120.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（三）_刷单行为过滤代码实现

360

121

18分16秒

121.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（一）_实现思路和代码框架

400

122

18分20秒

122.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（二）_具体代码实现

350

123

18分18秒

123.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（三）_代码改进

350

124

30分32秒

124.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（四）_CEP代码实现

330

125

12分22秒

125.尚硅谷_Flink项目-电商用户行为分析_CEP简介（一）_CEP介绍及Pattern API整体概念

390

126

12分40秒

126.尚硅谷_Flink项目-电商用户行为分析_CEP简介（二）_个体模式

300

127

10分22秒

127.尚硅谷_Flink项目-电商用户行为分析_CEP简介（三）_模式序列

390

128

9分49秒

128.尚硅谷_Flink项目-电商用户行为分析_CEP简介（四）_模式的检测和事件处理

380

129

19分49秒

129.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（一）_实现思路和程序架构

340

130

17分28秒

130.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（二）_CEP具体代码实现

440

131

6分41秒

131.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（三）_流式输入数据测试

390

132

32分19秒

132.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（四）_ProcessFunction代码实现

380

133

13分48秒

133.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（一）_需求分析和整体架构

350

134

22分23秒

134.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（二）_合流代码实现

380

135

12分55秒

135.尚硅谷_Flink项目-电商用户行为分析_Join API（一）_Window Join

380

136

9分46秒

136.尚硅谷_Flink项目-电商用户行为分析_Join API（二）_Interval Join

240

137

9分21秒

137.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（三）_Join代码实现

330

104.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（四）_批量消费Kafka数据测试

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐