文章/答案/技术大牛

发布

首页视频071.尚硅谷_Flink-Table API和Flink SQL_从Kafka读取数据

071.尚硅谷_Flink-Table API和Flink SQL_从Kafka读取数据

2022-12-022022-12-02 16:02:28播放34

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷Flink从入门到实战（scala版）/视频/071.尚硅谷_Flink-Table API和Flink SQL_从Kafka读取数据.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们已经实现了从文件里边读取数据，然后把它，呃，写入到注册到一张表里边，然后再把它读出来，呃，这个已经做到了，然后这里面还有一个问题，就是说大家看着这个已经被弃用的OLDCSV可能有点不爽啊，那当然就是有有这个新版本的CSV可以用，对吧？但是为什么我们一开始上来还是用旧版本呢？因为新版本默认的flink代码里边没有给我们提供，我们还需要去引入新的依赖啊，那这个引入的依赖其实就是大家可以看一下这个文档里边啊，我们在这里边，呃，就是可以引入这个flink csv，直接把这个引入，然后下面是对应的版本，一点十点一，我先把这个copy过来，然后这俩的区别在哪里呢？呃，其实主要就是之前我们这个O的版本啊，这个CS sa版本，它是一个非标的一个格式化工具，也就是说在跟很多外部系统连接的时候。
01:00
时候，你要是单纯一个文本文件的话，我们这儿去用它做这个格式化没有问题，但是假如说涉及到其他的一些呃，外部工具，比方说卡夫卡，卡夫卡那边就是必须要求是一个符合RFC标准的这个描述器，来来来进行这个CSV格式的描述，所以这里边就不适用了，那如果说我们想要跟卡夫卡更好的连接的话，那就必须使用这个新的，大家看这个CSV现在可以引入对吧？哎，这里边引入的时候，我们这里边用到的就是刚刚引入进来的flink csv里边给我们提供的描述器啊，这个就是后续大家会看到啊，有很多东西，如果当前flink里边没有提供的话，我们都需要引入其他的一些依赖，那呃，关于这个文件的写入啊，文件的读取当前我们就先讲到这里，然后再给大家来介绍一下，连接到其他的一些啊。
02:00
外部，呃，外部系统对吧？大家想到因为我能从文文件里面读取数据，那我们之前讲那个流式读取的时候，还有一个典型的数据源，那应该是卡夫卡对吧？我们应该能从卡夫卡里边读取数据，这才是真正意义上的流式数据处理嘛，所以接下来我们再来看一下这一点啊，这是二点，一是读取文件，那接下来我们做这个二点，二是从卡夫卡读取数据，其实就是连接到卡夫卡里面去，对吧？啊，那接下来这个操作呢，其实是差不多的，直接in table env.connect然后这个connect里边我们不是要传一个or script这个描述器吗？这里边我们要传的就是卡夫卡的一个啊script，然后大家看当前flink table里边，这里边已经有这样的一个描述器了，对吧？诶，这里边的这个这个描述器，这是在哪里提供的呢？大。
03:00
大家要注意，这其实是我们之前不是已经引入过卡夫卡连接器吗？Fli卡夫卡的连接器里边就给我们包含了tableable API里边想要用到的这个连接器的描述器啊，所以这里边你可以直接引入引入啊，直接用这个卡夫卡引入就可以了。呃，那这里边只引入卡夫卡显然还是不够的，对吧？后面明显是得给它定义各种各样的配置项，哎，那首先我们会看到最最基本的要定一个versionship啊，我们当前卡夫卡的版本，哎，当前我用的是0.11对吧？这是卡夫卡的版本，然后另外还有topic是不是也必须啊，来看有这个参数对吧？哎，我们就像之前一样啊，我们用这个三四这个topic主题，然后接下来那就还有一些配置项了，比方说我们得定义look keepper，得定义这个，呃，当前如果说我们是消费数据的话，那我们有这个bootrap service，对吧，得把当前这个。
04:00
Consumer定义的BOO service要定义出来，所以接下来其实是要定义一个property，大家看你们可以通用的去用这个去定义啊，啊，那这里边我们的参数zoo keepper.connect传这个参数定义the keepper，当前local host，这是我自己在本机起的，呃，2181对吧，这个必须要配置出来，然后另外再去配置一个property，接下来是boot stra.service当前是local host 9092，哎，这样配置好就完了，我们主要需要的就是这些嘛，对吧？然后诶大家会会想到了，之前我们不是还有一个就是卡夫卡里边我们得引入那个序列化工具吗？诶，那你现在连那个都不引入，接下来我们怎么做序列化呢？不要着急，大家这里我们不是还有这个with format吗？对吧？
05:00
而卡夫卡里面呢，它本身就支持我们的这个新版CSV啊，符合RFC标准的这个CSV就是可以用的，当然你也可以用这个Jason，对吧，也可以做这个Jason的格式化，都是可以的，当然你要想要引用Jason的话，还得引入Jason的那个知识包，对吧？Flink Jason就像这个flink csv一样啊，那这里边我们就简单使用了啊，首先with format，然后里边我们直接new一个CSV，直接用它做一个格式化，另外with schema，定义当前表的结构，哎，那大要想这里面表示结构，这不跟那个之前就一样嘛，对吧？你读进来之后数据如果要是一样的话，我们这里边做这个表结构的定义当然还是一样的，所以下边那就是各种field field，对吧？呃，首先一个ID，然后后边是data types.string啊，那后面还有这个temperature和这个。
06:00
呃呃，一个double一个，那我就不详细写了，我直接过来了，对吧，这个就完全一样，直接放在后边，这就是我们这个对齐啊，这就是我们从卡夫卡里边读取数据，用connect的方法做的一个操作，哎，大家看这个似乎看起来就更加通用，所有的这个外部系统好像都可以用这种方式，对吧？只不过就是前面你定义的时候，它本身的描述器可能不太一样，然后里面需要配置的东西不太一样而已，后边做的操作诶，格式化工具在这儿，后边是我们定义的，定义读进来之后的表结构啊，所以这个几乎是完全一样啊，当然了，后边我们需要再去create temporary table，这里边我定义一个叫做卡夫卡input table，对吧，把它定义出来，呃，然后接下来后边我们要做测试的话，那就把这个再copy过来，就from这张表，然后我们这里边定义的STEM都一样，那肯定还是可以转成这样。
07:00
单元组，我们看一看这个结果到底怎么样，好，我先把这个代码起起来，然后呃，我们得去起卡夫卡，得去起一个，我先看一眼卡夫卡还起着不起着好，起着的没问题，对吧？那我们去起一个生产者，好，我们进入到卡夫卡里边，呃。我们进入到卡夫卡里边来，然后去创建一个生产者卡夫卡conso producer啊，然后接下来我们要定义当前的，呃，这个list local host的9092啊，然后另外还要有当前的主题topic，就叫sens，对吧，先把它创建出来，然后这边正常我们应该已经提起来了，接下来呢，哎，那又是当时我们做测试的这个流程，这边生产者，这边生产数据，然后呢，诶，我们看看这边是不是能够消费到数据，把它作为三元组打印输出，对吧？好做一个输入。
08:17
诶，大家看这边包装成三元组做做了一个打印输出对吧？这边输入一条，这边就会输出一条，这就是真正的流式数据的读入和这边的处理输出啊，所以大家可以把这个卡夫卡作为数据源啊，下来之后再好好的测一下啊，那当然有同学可能会有疑惑，就是说诶，这里边我们做这个，呃，读取数据的时候，这里边我们定义的时候，看起来这就是一个表，看起来就是一个一个批处理的一种感觉呀，哎，为什么这里边还可以直接处理卡夫卡的这种流失的数据源呢？哎，这就是我们说的啊，本质上这里边我们所有的这种程序结构，看起来像直接基于表的那种批处理，但事实上呢，它的底层还都是data基于data stream去做的操作，对吧？啊，所以本质上还都是流，后面我们会再给大家详细的讲到。在flink的table API和CQ里边，它。
09:18
对于流去进行这些好像看起来基于表做的这些CQ操作的时候，到底是怎么样去做的查询，后面我们再讲。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷Flink从入门到实战（scala版）

（71/137）

10分49秒

001.尚硅谷_Flink-Flink简介

500

19分45秒

002.尚硅谷_Flink-Flink应用场景

480

11分3秒

003.尚硅谷_Flink-流式处理的提出

370

15分16秒

004.尚硅谷_Flink-流式处理的演变

340

16分33秒

005.尚硅谷_Flink-Flink的特点

340

23分57秒

006.尚硅谷_Flink-批处理wordcount

520

20分13秒

007.尚硅谷_Flink-流处理wordcount

370

19分14秒

008.尚硅谷_Flink-流处理wordcount扩展测试和说明

410

26分46秒

009.尚硅谷_Flink-Flink集群部署

470

22分34秒

010.尚硅谷_Flink-提交Job

400

7分30秒

011.尚硅谷_Flink-命令行提交Job

350

12分50秒

012.尚硅谷_Flink-其它方式集群部署

360

8分35秒

013.尚硅谷_Flink-运行时架构_运行时组件

380

13分22秒

014.尚硅谷_Flink-运行时架构_作业提交流程

420

16分27秒

015.尚硅谷_Flink-运行时架构_任务调度原理（一）_并行度和slot

350

17分22秒

016.尚硅谷_Flink-运行时架构_任务调度原理（二）_slot共享

460

6分15秒

017.尚硅谷_Flink-运行时架构_任务调度原理（三）_slot共享示例

290

25分35秒

018.尚硅谷_Flink-运行时架构_任务调度原理（四）_执行图和任务链

290

12分20秒

019.尚硅谷_Flink-运行时架构_任务调度原理（五）_自定义任务调度规则

340

16分18秒

020.尚硅谷_Flink-流处理API_Source（一）_从集合和文件读取数据

380

21分32秒

021.尚硅谷_Flink-流处理API_Source（二）_从Kafka读取数据

430

24分49秒

022.尚硅谷_Flink-流处理API_Source（三）_自定义Source

410

6分49秒

023.尚硅谷_Flink-流处理API_Transform（一）_简单转换算子

320

19分15秒

024.尚硅谷_Flink-流处理API_Transform（二）_简单分组聚合

380

11分20秒

025.尚硅谷_Flink-流处理API_Transform（三）_reduce聚合

320

12分23秒

026.尚硅谷_Flink-流处理API_Transform（四）_分流操作

350

19分54秒

027.尚硅谷_Flink-流处理API_Transform（五）_合流操作

290

9分39秒

028.尚硅谷_Flink-流处理API_Flink支持的数据类型

420

19分40秒

029.尚硅谷_Flink-流处理API_函数类和富函数类

280

18分54秒

030.尚硅谷_Flink-流处理API_Sink（一）_文件

410

10分44秒

031.尚硅谷_Flink-流处理API_Sink（二）_Kafka

430

18分29秒

032.尚硅谷_Flink-流处理API_Sink（三）_Redis

360

16分42秒

033.尚硅谷_Flink-流处理API_Sink（四）_ElasticSearch

350

17分47秒

034.尚硅谷_Flink-流处理API_Sink（五）_MySQL

480

7分21秒

035.尚硅谷_Flink-流处理API_Window API_窗口概念

360

10分12秒

036.尚硅谷_Flink-流处理API_Window API_窗口类型

330

27分16秒

037.尚硅谷_Flink-流处理API_Window API_窗口分配器

450

20分59秒

038.尚硅谷_Flink-流处理API_Window API_窗口函数及其它可选API

410

15分5秒

039.尚硅谷_Flink-流处理API_Window API_窗口计算测试

270

17分56秒

040.尚硅谷_Flink-时间语义

300

4分32秒

041.尚硅谷_Flink-时间语义的设置

350

19分5秒

042.尚硅谷_Flink-Watermark概念

370

15分56秒

043.尚硅谷_Flink-Watermark原理和特点

320

8分7秒

044.尚硅谷_Flink-Watermark传递

260

16分32秒

045.尚硅谷_Flink-Watermark代码中引入

290

7分8秒

046.尚硅谷_Flink-自定义Watermark生成机制

290

16分10秒

047.尚硅谷_Flink-事件时间语义下的窗口测试

360

9分20秒

048.尚硅谷_Flink-窗口起始点的确定

360

8分7秒

049.尚硅谷_Flink-状态管理（一）_状态的概念

400

15分13秒

050.尚硅谷_Flink-状态管理（二）_算子状态和键控状态

290

27分24秒

051.尚硅谷_Flink-状态管理（三）_状态在代码中的定义和使用

330

17分14秒

052.尚硅谷_Flink-状态编程示例（一）

380

17分29秒

053.尚硅谷_Flink-状态编程示例（二）

410

23分23秒

054.尚硅谷_Flink-ProcessFuntion_基本概念和使用

360

32分49秒

055.尚硅谷_Flink-ProcessFuntion_定时器应用示例

320

9分44秒

056.尚硅谷_Flink-ProcessFuntion_侧输出流应用示例

360

15分35秒

057.尚硅谷_Flink-状态后端

390

13分30秒

058.尚硅谷_Flink-容错机制_检查点概念和原理

280

25分45秒

059.尚硅谷_Flink-容错机制_检查点算法

380

26分28秒

060.尚硅谷_Flink-容错机制_checkpoint配置

350

8分20秒

061.尚硅谷_Flink-容错机制_重启策略配置

440

7分31秒

062.尚硅谷_Flink-保存点

460

10分45秒

063.尚硅谷_Flink-状态一致性_基本概念

400

8分42秒

064.尚硅谷_Flink-状态一致性_Flink端到端状态一致性的保证

390

23分34秒

065.尚硅谷_Flink-状态一致性_幂等写入和事务写入

410

18分19秒

066.尚硅谷_Flink-状态一致性_Flink与Kafka连接的状态一致性

400

22分2秒

067.尚硅谷_Flink-Table API和Flink SQL_基本概念和示例程序

400

9分21秒

068.尚硅谷_Flink-Table API和Flink SQL_基本程序结构

340

15分42秒

069.尚硅谷_Flink-Table API和Flink SQL_表执行环境

360

19分13秒

070.尚硅谷_Flink-Table API和Flink SQL_表的概念和从文件读取数据

410

9分28秒

071.尚硅谷_Flink-Table API和Flink SQL_从Kafka读取数据

340

11分3秒

072.尚硅谷_Flink-Table API和Flink SQL_表的查询转换

390

8分24秒

073.尚硅谷_Flink-Table API和Flink SQL_DataStream和表的转换

400

25分13秒

074.尚硅谷_Flink-Table API和Flink SQL_输出到文件

320

10分50秒

075.尚硅谷_Flink-Table API和Flink SQL_更新模式

310

17分40秒

076.尚硅谷_Flink-Table API和Flink SQL_Kafka管道测试

380

18分17秒

077.尚硅谷_Flink-Table API和Flink SQL_输出到ES

340

8分8秒

078.尚硅谷_Flink-Table API和Flink SQL_输出到MySQL

390

11分33秒

079.尚硅谷_Flink-Table API和Flink SQL_表转换成流

290

7分6秒

080.尚硅谷_Flink-Table API和Flink SQL_流处理和SQL查询的不同

340

12分23秒

081.尚硅谷_Flink-Table API和Flink SQL_动态表和持续查询

430

12分49秒

082.尚硅谷_Flink-Table API和Flink SQL_持续查询示例具体过程

410

20分15秒

083.尚硅谷_Flink-Table API和Flink SQL_时间特性（一）_处理时间

340

14分15秒

084.尚硅谷_Flink-Table API和Flink SQL_时间特性（二）_事件时间

330

13分10秒

085.尚硅谷_Flink-Table API和Flink SQL_窗口（一）_分组窗口

440

18分42秒

086.尚硅谷_Flink-Table API和Flink SQL_窗口（二）_分组窗口测试

400

11分57秒

087.尚硅谷_Flink-Table API和Flink SQL_窗口（三）_Over窗口

380

13分1秒

088.尚硅谷_Flink-Table API和Flink SQL_窗口（四）_Over窗口测试

340

11分3秒

089.尚硅谷_Flink-Table API和Flink SQL_函数（一）_系统内置函数

310

14分38秒

090.尚硅谷_Flink-Table API和Flink SQL_函数（二）_UDF函数_标量函数

430

17分18秒

091.尚硅谷_Flink-Table API和Flink SQL_函数（三）_UDF函数_表函数

350

26分57秒

092.尚硅谷_Flink-Table API和Flink SQL_函数（四）_UDF函数_聚合函数

410

27分55秒

093.尚硅谷_Flink-Table API和Flink SQL_函数（五）_UDF函数_表聚合函数

370

8分11秒

094.尚硅谷_Flink项目-电商用户行为分析_批处理和流处理以及项目选型

350

15分26秒

095.尚硅谷_Flink项目-电商用户行为分析_用户行为分析应用场景

370

9分11秒

096.尚硅谷_Flink项目-电商用户行为分析_模块设计和数据分析

440

21分2秒

097.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（一）

350

9分6秒

098.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（二）

400

10分2秒

099.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_其它需求

400

100

10分20秒

100.尚硅谷_Flink项目-电商用户行为分析_项目框架搭建

380

101

27分53秒

101.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（一）_窗口聚合

360

102

27分13秒

102.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（二）_排序统计输出

390

103

20分50秒

103.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（三）_从Kafka消费数据测试

450

104

10分2秒

104.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（四）_批量消费Kafka数据测试

480

105

28分42秒

105.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（五）_Table API和SQL实现

350

106

26分5秒

106.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（一）_开窗聚合统计

250

107

9分46秒

107.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（二）_统计结果排序输出

350

108

21分3秒

108.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（三）_乱序数据的处理

420

109

21分40秒

109.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（四）_保证状态更新结果正确

390

110

20分38秒

110.尚硅谷_Flink项目-电商用户行为分析_PV统计（一）_基本实现

420

111

19分21秒

111.尚硅谷_Flink项目-电商用户行为分析_PV统计（二）_数据并行的优化

320

112

15分27秒

112.尚硅谷_Flink项目-电商用户行为分析_UV统计（一）_基本实现

430

113

30分47秒

113.尚硅谷_Flink项目-电商用户行为分析_UV统计（二）_布隆过滤器去重思路和程序架构

350

114

9分11秒

114.尚硅谷_Flink项目-电商用户行为分析_UV统计（三）_布隆过滤器简单实现

340

115

23分31秒

115.尚硅谷_Flink项目-电商用户行为分析_UV统计（四）_UV去重的布隆过滤器实现

300

116

17分2秒

116.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（一）_自定义数据源

480

117

20分43秒

117.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（二）_开窗聚合统计输出

320

118

19分18秒

118.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（一）_基本需求实现

310

119

14分27秒

119.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（二）_刷单行为过滤思路和整体框架

380

120

23分19秒

120.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（三）_刷单行为过滤代码实现

360

121

18分16秒

121.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（一）_实现思路和代码框架

400

122

18分20秒

122.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（二）_具体代码实现

350

123

18分18秒

123.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（三）_代码改进

350

124

30分32秒

124.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（四）_CEP代码实现

330

125

12分22秒

125.尚硅谷_Flink项目-电商用户行为分析_CEP简介（一）_CEP介绍及Pattern API整体概念

390

126

12分40秒

126.尚硅谷_Flink项目-电商用户行为分析_CEP简介（二）_个体模式

300

127

10分22秒

127.尚硅谷_Flink项目-电商用户行为分析_CEP简介（三）_模式序列

390

128

9分49秒

128.尚硅谷_Flink项目-电商用户行为分析_CEP简介（四）_模式的检测和事件处理

380

129

19分49秒

129.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（一）_实现思路和程序架构

340

130

17分28秒

130.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（二）_CEP具体代码实现

440

131

6分41秒

131.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（三）_流式输入数据测试

390

132

32分19秒

132.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（四）_ProcessFunction代码实现

380

133

13分48秒

133.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（一）_需求分析和整体架构

350

134

22分23秒

134.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（二）_合流代码实现

380

135

12分55秒

135.尚硅谷_Flink项目-电商用户行为分析_Join API（一）_Window Join

380

136

9分46秒

136.尚硅谷_Flink项目-电商用户行为分析_Join API（二）_Interval Join

240

137

9分21秒

137.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（三）_Join代码实现

330

071.尚硅谷_Flink-Table API和Flink SQL_从Kafka读取数据

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐