00:00
好,咱们现在的时间是这个中午的12点半,那么咱们就开始今天中午的学习,今天中午呢,咱们主要是来给大家介绍一下大数据计算引擎哈flink的相关的知识,那么咱们希望通过今天中午的学习,能够让大家对我们的flink能够有一个进一步了解,为咱们后续深入去学习大数据技术呢奠定一个基础,因为整个大数据体系里面,它包含很多的组件,也包括很多名词,那么如果说大家对这些组件或者说对这些名词没有一个初步了解的话,那么是不利于咱们后面的进一步学习,因此呢,咱们再重复一遍,那么希望通过今天中午的学习,能够为大家后续深入学习大数据技术奠定一个基础。大家之前。
01:00
啊,听过赵老师的课程应该都知道,赵老师呢,在上课的过程当中,会给大家记录一个课堂的笔记,通过这样的一个课堂笔记,我们会把今天中午比较重要的知识给大家记录下来,因此呢,今天中午呢,咱们也会按照同样的这种方式来给大家记录一个课堂笔记,会给大家介绍以下三个方面的问题,首先我们需要对大数据的一些基本知识要有一个初步了解,那么整个大数据生态圈里面呢,它包含很多的组件,这些组件的功能和作用分别是什么啊,那么呢,这个基本知识以后,那么将会在第二个小节通过什么呢?DEMO演示,让大家能够对我们的flin能够有一个感性认识,嗯,好,咱们这个地方呢,一共会给大家演示嗯,这样的几个DEMO。首先我们通过使用。
02:00
弗link呢,能够执行P处理的什么离线计算,那好,这个呢,咱们是给大家演示的第一个例子,那么咱们要给大家演示的第二个例子呢,通过使用fli也能够执行流由处理的什么实时的计算,那么要给大家演示的第三个例子呢,我们通过使用什么flink,它所提供的什么数据分析引擎,就能够支持什么标准的什么C口语dream,那么换句话去说,我们在flink当中,通过使用咱们的flink ckcom, 你就能够使用标准的SQL与dream来去处理我们的大数dream,通过使用这个flink CQ呢,既能够处理离线数据,也能够处理实时流失数据,那么有了这种方式以后,它就大大降低了大数据分析处理的门槛,那么你直接协调CQ与dream,那么就可以了。最后呢,咱们回来给大家完整介绍一下。
03:00
嗯,整个flink生态圈体系里面,它都包含哪些组件,这些组件的功能和作用又分别是什么?好英从你们介绍到这个地方时候,那么曹老师呢,就带着大家去梳理一下啊,我们在今天中午呢,将会学习到哪些知识?好咱们现在呢。咱们就按照这样的一个顺序来给大家进行相关的介绍,好咱们首先看一下第一个问题哈,嗯,大数据的基础的知识,那么整个大数据体系当中,它都包含很多的组件,那么这些组件主要是为了去解决两方面的问题,好问一下各位直播间同学。你能不能够把大数据它所要解决的两个问题发送到咱们的公屏之上,那么如果说大家知道,就请积极回答一下赵老师的问题,如果说大家不了解,那么就请在公屏之上,请给张老师呢回复一个0或者点一个赞,好,咱们呢,接着往下来给大家进行相关的介绍,他们讲整个的大数据生态体系当中,不管是你的哈op也好,10SPARK克也好,Fli克也好,在这些生态home主要是为了解决数据的什么数据存储,还有我们的什么数据计算,那因此你把握住了什么数据存储,把握住了数据的计算,那么咱们就把握住了整个大数据体系当中最核心也是最重要的部分。
04:50
那么不管是你的哈杜也好,是巴克也好,还是flik也好,包括各种各样的什么呢?Low CQ数据库,那么都是围绕存储和计算他提出的,好顺便提一下咱们的什么low CQ数据库,对,那么我们可以把这个什么呢?Low CQ数据库划归到我们的大数据体系当中,比如说我们在这个哈都普里面,它就提供了一个什么HP,因此呢,大家后据,如果说你要系统去学习大数据的技术,那么需要去学习我们的low c code, 比如说我们的red啊,我们的mango DB等等等等,包括我们的HP。好既然了解到了数据存储,那么还有数据的计算,那整个大数据生态体系当中哪些组件?
05:43
它可以用于存储哪些组件,它可以用于计算呢?首先咱们看一下数据存储这个部分,那数据存储这部分呢,它主要能够解决两类数据的存储,首先第一种类型是我们的离线数据存储,通过存储离线数据,那么咱们进一步的呢,能们构建构建我们的离线数据仓库,好第二种数据存储呢,是我们的什么实时数据,通过存储我们的实时数据,我们呢,能够进一步的去构建我们的实时数据仓库,好这个地方咱们可能呢,就需要去解释一下什么是离线数据,什么是实时数据,离线数据它表示已经存在的历史数据,比如说我们的订单数据,我们的交易数据,这种已经。
06:44
存在的历史数据,我们统称把它叫做离线数据,那么什么又是实时数据呢?实时数据它是一个相对概念,那么它相对我们的计算任务而言,目前还不存在的,未来有可能会产生的数据,那么就叫做实时数据。既然我们在大数据体系当中能够存储这两种类型的数据,首先看一下我们的离线数据,好问一下对直播间同学,你能不能够告诉一下赵老师,我们在大数据生态体系当中,我们可以使用哪些组件来存储离线数据,你能够把这些组件的名字?
07:35
发送到咱们的公屏之上吗?如果说大家都清楚都知道,就请积极回答一下赵老师的问题,如果说大家不了解,那么就请在我们的公屏之上回复一个0,或者给赵老师呢点一个赞,让赵老师呢能够知道大家都还能够跟得上,好,咱们接着呢往下来给大家进行相关的介绍,那么离线数据存储主要使用主要并不是全部啊,离线数据存储主要使用我们的哈杜普生态圈体系,比如说我们在哈杜op当中,什HDFS,包括我们的么HBA,还有我们的haveve,首先大家需要知道这三个组件都是属于哈杜浦生态圈体系,它主要去存储离线数据,构建我们。
08:36
我们的离线数差,好咱们解释一下每个组件的功能和作用分别是什么?首先咱们讨论第一个我们的HDFS,那么这个HDFS呢,它是属于哈都普当中的分布式文件系统,你把这样的一个分布式文件系统看成是一个网盘,那么就可以比如说你的百度网盘等等等等,它能够以文件和目录的形式存储海量的离线数据,并且呢,整个HTFS,它是属于哈都当中非常重要的一个组成的部分,那么大家后续你在学习哈多op的时候,那么第一步呢,就需要去学习我们的HDFS,它就是一个文件系统,好,基于我们的HDFS之上呢,就有有了我们的H和我们的hi,首先看一下什么是H。
09:36
Base, 首先大家需要知道h base呢,它是一个什么呢?它是一个我们的low c code数据库,刚刚提到我们可以把low c com划归到我们的大数据体系当中,因此呢,大家后续你在系统去学习大数据知识的时候,那么需要去学习我们的NOC口,对,那么到底什么是h base呢?H base它是什么呢?基于HDFS之上的一个什么呢?列是存储的NOC口数据库,这个里面它就有两层含义,首先h base它基于HDS之上,第二呢,它是一个列是存储的,那么先看一下第一个,既然h base它基于HDFS之上,你在h base里面你去创建一张表,表中的数据它都是以这个什么呢?
10:34
目录和文件形式存储在HDFS当中,因此呢,后续你在部署安装的时候,先要安装部署好HDFSM,然后再来去安装我们的HPSM,这个呢是它的第一层含应,那么它的第二层含应呢,它是一个列式存储数据库,那么列式存储跟你的行式存储它有什么区别呢?简单补充一点点知咱们写在咱们什么咱们的这个下方啊,咱们补充一点点这个知识啊,写下补充一下就是你的什么你的这个行剩行式存储,包括我们的什么列式存储它有什么区别呢?刚刚提到你的这个h base式,它是一个什么呢?列式存储数据库,那么什么又是行式存储呢?比如说尝试存储的话,你的关系型数据库,比如说你的什么,你的or或。
11:34
或者说你的什么my s com等等,那传统的这种关系型数据库呢,都是行式存储的,如何去理解行是存储呢?就表示我在读写数据的时候,按以以行为单位,先读写第一行,那么在读写D2行,那么这种行是存储的关系型数据库呢?主要适合执行我们的什么DML的什么事务操作,那么我们在事物里面呢,主要包含我们什么插入更新,还有我们的删除操作么?它非常适合构建我们的什么OLTP的应用场景。好,这个地方问一下各位直播间同学们,你能够帮赵老师解释一下什么叫做OLTP吗?你能够把他的全称或者说它的中文名字发送到。
12:34
咱们的公平之上吗?这些名词和概念都是我们后续你在学习数据库的时候,或者学习大数据的时候,那需要重点掌握的知识。那么到底什么叫OLTP呢?写向它的全称叫做我们的online,核心单词是中间的team叫transaion p呢是我们的个procession,如果翻译成什么中文的话,它就叫做什么连接失误,处理的失误呢?插入、更新、删除,Commit, 如back。如果你的应用场景当中,你要执行大量的什么事物操作,推荐使用传统的关系型数据库,它是行色存储的,它适合执行这种应用场景。那么再看一下我们的列式母存储的,那么列式存储据库呢?它以列为单位,它以列的,读数据的时候都是以列为单位,那么它。
13:34
主要适和什么执行我们什么查询设S这个操作,比如说当我去构建我们的什么数据仓库的时候,不管你是离线数仓还是我们的实时输仓,只要是数据仓库的话,那么都是需要去执行大量的什么查询语句,如果是这种应用场景推荐使用我们的列色存储,那么它非常适合我们的什么o lap的应用场景,那么什么又是o lap呢?写一下它的这个全称么?它的全称叫做我们online,核心单词是中间的A叫ananatic p呢是我们的processing,好,如果呢把这个呢翻译成是我们的中文的话,它就叫做我们的什么连经分析处理啊连,连经分析处理既然是。
14:34
分析处理呢,我们在olap当中,或者说我们在数据仓库里面一般哈,这个不绝对啊,一般只会执行我们的查询操作好,因此讲到这个地方,问一下各位直播间同学,关于我们的行式存储,还有列势存储的一个地方,大家是不是都听明白了,如果说这个部分大家都听明白了呢,就请在公屏之上,请给赵老师呢回复一个1,或者给赵老师呢点一个赞,还有了这些知识以后,回到刚刚上面的的这地方,那除了HPS以外,我们在存储离线数据的时候,也能够把数据存储在我们的haveve里面,那什么是我们的have呢?Have它也是属于哈杜普生态,它是基于HDFS之上的一个什么离线输仓。
15:34
它支持使用标准的C口L语句来去处理我们的大数据。Have, 它既然基于HDFS之上,那么你在have文里面创建一张表,表中的数据它跟我们的HS也一样,它将会以目录和文件形式存储在HDFS里面,并且它支持我们的CQL语句,那么它在默认的情况之下,Have呢,它会把这条CQL语句转换成是一个ma produceduce程运行在哈杜op的亚M集群之上,但是呢,由于my producedu执行效率比较的慢,那因此呢,我们在实践工作当中使用更多的一种方式是什么呢?是我们的have on Spark, 那如果你使用了on sparkrk以后,那么你在have里面你所执行的一条SQL语句。
16:34
嗯,将会被转换成是一个18g任务,运行在我们的18g集群之上,那关于18课的知识呢,关于have的知识呢,张老师呢,也会在后续的直播课里面。单独的来给大家进行相关的介绍,好,咱们讲这三个组件主要去存储我们的离线数据,那实时数据他们主要存储在我们的消息系统卡夫卡当中,那通过存储数据的卡夫卡里面呢,能够进一步的去构建我们的实时数据仓库,还有一层讲到这个地方,有关数据存储这个部分,就给大家介绍到这个地方,好问一下各位直播间同学,关于这个部分大家是不是都听明白了,如果说这个部分大家都听明白了呢,就请在我们的公屏之上回复一个1,或者给赵老师呢,点一个赞,好,咱们接着往下来给大家进行相关的介绍,好,讨论完了咱们的。
17:48
数据存储以后再来看一下我们的数据的计算,那于数据存储分为两个方面,那数据计算呢,也要分开来进行讨论,首先咱们讨论下据计算的第一个方向,它叫做我们的什么?离线计算,那么离线计算也可以叫做P处理计算,通过它来处理离线数据,从而进一步进行离线数据分析。而我们在大数据体系当中计算的第二个方向是我们的什么呢?这个实时计算,实时计算也可以叫做什么流处理计算,它来处理实时流失数据,从而进一步的去处,进一步的构建我们的实时数据仓库。好问一下各位直播间同学,你能不能够告诉一下张老师们。
18:48
我们在大数据体系当中提供了哪些离线计算引擎,又提供了哪些流出的引擎呢?你能够把这些计算引擎的名字帮张老师发送到咱们的公屏之上吗?好,跟刚刚也是一样的,如果说大家都清楚呢,就请积极回答一下赵老师的问题啊,如果说大家不了解,那就请在我们的公屏之上回复一个0,或者给赵老师呢点个赞。
19:24
好,咱们接着往下来给大家进行相关的介上,那我把这个地方离线计算引擎先给大家写在咱们的课堂笔记上,那哪几个属于我们的离线计算引擎呢?比如说我们的my pma reduceing, 我们10SPA com当中的10SPA克com,还有在fli当中的什么data set, 通过使用这三个部分我们都能够处理离线数据。简单解释一下,第一个呢是我们的map,就是对注意,尽管目前我们在大数据生态体系当中很少会在直接的去开发我们的马克dus,更多的是开发我们的18g,还有我们的弗林克,但是my producedu的什么思想和原因非常的重要,这种思想和原因也被借鉴。
20:25
等到了18课和flink当中,因此呢,大家后续如果要学习的话,第一步呢,还是需要好好学习一下,到底什么是我们的map,是对它采用这种什么呢?先拆分。在合并的方式能够解决大数据的离线计算问题,我们把拆分的过程叫做map,合并过程叫做reduce,是,但是呢,请大家注意一下,Map producedu本身它只是一个计算模型,它跟我们的编程语言无关,只是我们在这个他都普当中使用了Java语言,实现了map producedu. 因此呢,这个时候你所开发出来的Du将会是一个Java程序,它本身就编程语言无关。好,再来看一下第二个。
21:24
就是我们的什么这个斯SPA克当中的斯Spark com, 那这个斯Spark com呢。它是整个斯SPA克里面最核心也是最重要的一个部分,它是斯SPA克的什么离线计算引擎?那我们在10SPARK里面,我们所执行的所有的计算都是18RK code的离线计算,因此我们在Spark里面并不存在真正的实时计算,所有10SPARK计算都是离线计算哈,Flink里面它提供了一个模块,或者说提供了一套APM,叫做data塔set,通过开发我们的Java程序或者开发我们的scva程序,利用这套API当中的算子,我们就能够处理离线数据。好讨论完了离线计算引擎以后。
22:24
再来讨论一下我们的下面的什么流出的引擎,或者呢叫做实时计算,对,好,这个地方跟刚刚也一样,如果说大家知道哪些计算引擎属于我们的流计算引擎,你能够把这些计算引擎名字也发送到咱们的公屏之上吗?如果说大家不清楚呢,也请回复一个0,或者给赵老师呢点个赞,对,这些大数据的知识都是我们在开始学习之前那么需要掌握的知识,那这样子呢,有助于咱们后面的进一步的学习,哪一些是流出的引擎呢?写下。
23:06
比如说我们的什么storm,还有我们的SPA克当中的SPA克stream,还有Lin克当中的嘛,Data stream, 好这个地方怎么说一下,你的这个什么,你的这个storm和你的什么flink的什么datatime stream这两个它们是属于真正的实时计算引擎,它们可以用于实时性非常高的场景。对,好咱们这个地方单独说一下,我们的18坑是追命,那通过刚刚的介绍啊,咱们知道了,你在18RK里面,你所执行的所有的计算都是底层的什么呢?10SPARK code离线计算,因此本质上去说,这个18个dream母,它采用小P的处理方式,近似代替一个实时计算,帮你替一个实时计算。
24:07
本质上还是一个离线计算,因此呢,你就不能够把这个s Spark stream用于实时场景非常高的场景当中,那么一般来讲哈,这不绝对,一般来说就是我们的什么秒级,那什么叫秒级呢?比如说你希望3秒钟,你希望4秒钟出理子数据秒级的这种单位,那么你能够使用18g居米去实现,但是如果是秒级以下呢,比如说我们希望300mm,我们希望400MMM,处理次数均,那么在实时场景非常高的情况下,不能够使用咱们的四八个dreamm,因为它的本质是一个什么离线计算,好,你可以使用咱们的s stone, 或者呢,使用咱们的flink,这两个呢,都是属于真正的实时计算,好因此讲到。
25:07
这地方整个今天中午。要给大家介绍的嘛,第一个部分有关大数据的基础知识,那么就给大家介绍到这地方,好问一下各位直播间同学,嗯,关于这个部分大家是不是都听明白了,如果说第一个部分基础部分大家都听明白了呢?就请在我们的公屏之上回复一个1,或者给赵老师呢点一个赞的好,咱们接着往下来给大家进行相关的这介绍,大数据跟am可以整合吗?当然可以整合,当然可当然可以啊,当然可以,当然可以啊,当然可以,那好,接下来我们介绍我们的第二个部分的知识,对,通过DEMO也是让大家能够对我们的flink呢,能够有一个感性的一个认识,好那么通过使用flink呢,能够处理离线数据,也能够执行流处理计算。
26:10
也能够通过使用CQL语境来处理我们的结构化的数据,好有了这些知识以后啊,咱们切换到咱们的实验环境当中去,先去把我们的这个什么flink集群,嗯,先去给他什么启动起来的,好,我们进入到什么fli克的安装的洛上栏,执行并下面的什么使搭class的脚本,那通过使用这个脚本呢?啊怎么呢,就能够启动flink的什么主节点,也能够启动它的重节点,因此呢,它是用什么架构呢?它是一种主从架构,那么我们在大数据体系当中,核心组件都是属于我们的主从式架构,好既然提到的主从问大家一个问题呢,那么你知不知道主从架构它所存在的最主要问题?
27:10
是什么?如果说大家知道,那你能不能够把它存在的主要问题发送到我们的公屏之上,那么如果说大家不了解呢?就请在我们的嗯。公屏之上回复一个0,或者给赵老师呢点个赞,让赵老师呢能够知道大家都还能够跟得上赵老师的节奏。好,我们接着往下讲,对主从架构,它所存在的最主要问题是单点故障问题,那么单点指指的就是集群的什么主节点,如果只存在一个主节点,当它死掉以后,它会造成整个的集群无法正常工作,这个呢,单点故障它是组从架构的最主要问题,因此呢,我们在实际工作当中,那你就需要使用猪keepper来解决单点故障,实现高可用的什么ha,那什么是猪keepper呢?猪Keepper它是属于哈都里面提供的一个分布式协调的服务,通过它的什么选举机制?
28:27
和监听机正能够实现ha,但这个里面呢,涉及到的更加系统的知识都会包含在我们的什么系统的课程当中。好,当你把弗link集群启动完成以后呢?它提供了一个图形化的网页的工具,端口号是8081啊,通过浏览器访问输主机的8081端口,那么怎么了就能够打开这个flink的大细胞的仪表盘,通过使用这样一个仪表,你就能够去监控我们的flink集群,如果说你有任务呢,运行在集群之上,通过现在大家看到的的界面,你也能够去监控任务的执行状态。好整个环境启动完以后呢,首先我们来给大家演示第一个事例,批处理计算,通过P。
29:27
你就是说我们可以直接处理什么HMDFS的数据,那么通过刚刚的讲解啊,咱们讲解到的HDFSM,它属于哈都普当中的什么分布式文件系统,它能够以文件方式,那么解决海量离线数据的存储问题后们也是一个什么一个例程,这个是我们的我count我们的的单程技术啊,单词技术,我要统计文本文件里面每个单词,它所出现的频率,统计完以后结果显回到HDFS上,通过这么样的一个过程来执行我们的离线计算,也可叫做我们的P处理计算好先去把我们的什么呢?嗯,先去把我们的这个HDFS命去给它启动起来的,好,直接执行我们的一条命令,叫S大,我们呢,DF.
30:27
那么它也是一种什么架构,它也是一种主从架构,它也存在单点故障,因此呢,你也需要使用猪keper解决它的单点故障,实现它的高可用,这些知识跟刚刚讲的呢,都是相通的,好整个HTFS启动起来呢,先去看一下我们即将要处理的数据文件,它长什么样子,好直接写执行HDFS音量HDFSDFS,那么刚他查看一下我在什么HDFS的input通目录下面放了个什么datatime DM test文件,好这个文件里面包含三句话,包含哪三句话呢?分别是我们的什么?这个I love Beijing京I love China, 北京the capital of什么。
31:27
的China,那通过观察我们发现呢,这三句话当中有一些单词它是重复出现的,对不对?我就需要跑个程序,把这个里面每个单词它所出现频率呢统计出来,结果写回到HDFS当中,好当你把这个弗林。安装好以后呢,它就提供了这么一个什么一个example程序,直接可以去运行好执行并下面的什么fli run指令提交一个room到我们的fli集群之上,那在flink安装目录下面有一个一个RA下面有个半琴,半琴呢就是我们什么这个P处理的这个这个计算,诶好我们的我count我们的点价包,好有同学说的上链接啊,既然邀请上链接的话,我把链接挂到咱们的这直播间这个里面啊,大家呢,请稍等一下,在因为整个直播的的时长大概呢,就只有一个小时的,一个小时仅仅只能够让大家有一个基本的了解啊,如果说大家你要去系统的去学习有关大数据的这个知识啊,就这那么还得需要通过我们的系统课程来学习的,因。
32:50
那每次直播的时候,那么张老师呢,都会给大家推荐一门课程啊,那这门课程呢,我会放到今天直播的这个最后来给大家进行相关的这个介绍啊对,好,我已经把链接挂到了咱们的直播间的里面呢,好接着来演示你们刚刚的这个什么DEMO的这个实例,对你在这个example下面有个半我count这么一个点价包,对,通过执行这样的价包,你就能够执行离线计算,它既能够处理HDFS数据,也能够处理本地的文件的数据,好通过杠杠input选项指定输入路径是我们的HDFS,需要写上HDFS的什么它的全路径啊,对,HMDFS冒号我们的low host端口,HOST9000,那么它下面呢,有一个我们的input。
33:50
目录,注意输入的路径,如果是一个目录的话。它将会去读取目录下面的所有文件,当然你也可以只写这一个文件,那输出也放到我们的HDFS之上,好杠杠,我们的output也需要写上HDFS的嘛,它的全路径接下HDF冒house端口9000放上output放到下面的WC上,它通过执行这一条命令,我们在flink里面呢,就能够去集行一个离线计算,它将会把它提加到集群上去运行,那既然题交到集群上去运行,通过刚刚的叫什么图形化的界面,我们是不是就应该能够监控到你的任务的执行的状态是这样子的,好,这个地方我们稍微等待一会儿呢。
34:56
等待一会儿以后,他就会把这个任务呢,直接提啊,怎么这个地方写错了,看哪个地方是不是写错的啊,咱们这个地方去看哪个地方是不是写错的,他就应该能够去把我们往这个地方停教导就行了,我看一下这个命令是不凹um破,哎,没有写错呀,我通过这个杠杠input h data发local hostt input data, 诶没写错啊,好,这里面呢,提交完以后呢,它就应该能够提交到我们的flink进上去进行,好我去查一下这个文档,看一下咱们的这个命令哪个地方是不是写错了的,好我们看一下。
35:37
我们的上面打印输出的什么这个相关的错误的什么信息,对好注意啊,这个目录太码,它已经存在了,对,那你要指定一个什么不存在的一个物径是不是可以对好你把指定一个不存在的啊对,重新改一下上面的命令放到output一下面吧,生成文件叫做我们的WC,对好直接执行我们的这个命令,那么它将将会把这个任务呢,也都停加到咱们的弗link进上进行,既然题目加到集群上进行,通过刚刚的图形画的界面,你是不是就能跟监控到整个任务的什么执行状态,对,那由于我们的这个flink它跟我们的这个10SPARK一样,都是基于内存的方式,那进行计算,因此呢,很快呢,将会计算完成,变成我们的finish的什么这个。
36:37
状态的,那计算完成以后,那么你的结果将会被写回到HDFS上,看统计的结果,它会是一个什么结果呢?好,执行一条命令,HDD刚cut查看一下output in下面的WC的文件呢?通过查看这个文件。
37:02
他就把刚刚的什么数据文件当中,每个单词它所出现的频率呢统计出来,比如说每京出现两次,Capital呢出现一次,China也出现两次,那通过使用这样的一种方式,我们是不是我们在这个flink当中就执行一个什么离线计算,通过这个演示你告诉大家,如果大家以后你开发好了一个flink的离线计算程序啊,那也通过使用咱们的这种方式flink wrong指令把它打包执行你的这个架包,那那你就能够提交到咱们的集群上面怎么去运行,还有从演示到咱们的这地方,问一下各位直播间同学们,关于咱们演示的第一个DEMO示例批处理的离线计算,大家是不是都看明白了,如果说这个DEMO的隐示大家都看明白了呢?就请。
38:02
按我们的公屏之上回复一个1,或者给赵老师呢点一个赞,好,接着呢来给大家演示。我们的第二个DEMO实例,那我们在flink里面也能够去执行流处理的实时计算,并且呢,Flink流处理计算它是一种真正的实时计算,它可以用于实时性非常高的场景,好他么直径呢,也来执执听了吗?也来执行一个单词技术,对直接处理呢,那他们看呢,发送的数据那些地方解释一下什么是我们的那卡,那么那卡呢,Customer呢,它我们在Linux之上提供了一个网络测试工具,当你安装好了Linux以后呢,那就能够直接使用它来去发送咱们的消息,好我们这个地方把它当成我们的实时数据源,实时发送消息,那么当他把消息发送出来以后呢,实时捕获消息,处理消息。
39:11
嗯,当中每个单程它所出现频率通过使用这样的一种方式我们来衍生,到底什么是流处理计算,什么是实时计算,所以实时理由处理计算,只要你不人为的停止它,它将永远运行在集群计上,那么状态呢,将永远是我们的running状态。好了,这种基本的嗯。那有了这种基本的。信息以后呢,为了演示这示例呢,好怎们需要去开启两个命令行的窗口的好,我们在下面的命令行窗口当中把我们的什么消性福庆拿来看着给它启动起来的好,直接敲NC钢M钢P1234,好通过使用这样的一种方式呢,我就把这个什么呢nat卡消息服务器呢,运行在了当前主机的1234端口之上,上面呢,我去把这个流处理计算去给它跑起来,它还是一种真正的什么实时计算,好跟刚刚一样执行并下面的什么弗林坑wrong指令的好执行example下面的是dreaming,下面什么so window, 我count定价包,这个呢是一个实时计算当中什么窗口计算,窗口计。
40:44
可以算属于实时计算的一种场景,好在指定什么刚刚port的参数1234,没指定主机,如果你不指定主机,就是当前主机的什么1234端口,当你把这个程序启动起来呢?只要你不人为的停止这个程序,它将永远是我们的的状态,既然永远是running的状态啊,通过刚刚的对么图形化的工具,你将会看到这个程序状态永远是我们的running,对,好,整个环境启动起来啊,我们就在刚刚的什么呢?那Cutt怎么网络测试工具里面,我们来发送我们的消息数据,对,演示一下,好,我们的下面的窗口里面来去发送我们的一条消息数据,很简单啊,对,I love什么。
41:44
我们的北京I love, 什么China很明显呢,这里面呢,I'am出现两次,Love是不是也出现两次,那当这句话它被发送出去以后,它将会被上面的程序捕获到,捕获到以后实时统计这一句话里面每个单词它所出现频率,那么你下面发什么,我上面呢,我就统计什么啊,看整个的效果是什么样子的。好,我们在下面的那令行窗口里面输入一个回车数据,发送出去以后呢,很奇怪的是什么呢?我们并没有在上面窗口里面看到结果,为什么呢?因为他把结果写到了分林克的什么日志当中,你需要去查看一下我们的日志,好当你打开一个新的命令行窗口,连接到我们的。
42:44
虚拟经之上看一下我们弗林克什么日志里面,它有没有把每个单词出现频率给我们统计出来,好进到弗link安装的什么log下面去,嗯,好,这个地方有这么多日志,咱们应该看什么,他斯一个Q特啊,这个呢日志好,我们的这个日志里面,它会包含你刚刚发送数据统计的结果,好,我们直接使用term。
43:11
Tell什么tell-F的,把你这个文件写在咱们的后面的,好,他将会实时查看最新写入的日志,通过查看呢,刚刚你所发送的。消息里面每个单词频率这地方是不是就统计出来了,对好,我们再到我们的命令行上面,那么再去发送我们的消息的数据,对好再发送一下,比如说发送5个I这句话,它被发送出去以后,那跟刚刚也一样,它也将会被上面程序捕获到时生统计这一一句话当中每个单词它所出现的频率,好一旦发送出去以后,观察项这边统。
44:01
打印的是这那超后了,它将推土机I什么出现了5次,那那边发送什么,我这边我就统计什么的,这样就是咱们通过使用我们的fli如何去执行我们的流处理计算,并且呢,Flink的流处计算,它还是一种真正的什么实时计算,还从衍生到咱们的这个地方时的,我们要给大家衍生的第二个DEMO姆实力到底什么是我们什么这个flink的是吧,这个流处理就算呢,就给大家衍送到这地方,好问一下各位直播间同学关于这个第二个DEMO的事令。大家是不是也都看明白了,如果说这个部分大家都看明白以后呢,就请在我们的公屏之上,请给赵老师呢,嗯。回复一个1,或者我给赵老师呢点个赞,对通过这样的一些DEMO的演示,对希望大家能更对我们的flink呢,能够有一个进一步的了解,那为大家后续的进一步学习呢,好奠定一个基础,刚刚演示S令大家是不是嗯都看明白了,好,咱们再来给大家讲示我们的最后的一个事例,那么我们在整个的什么大数据体系当中提供了很多的什么这种数据分析引擎,那只要看到了什么数据分析引擎这六个字母,那么大家就要反应过来,它是支持我们的C口L语句的,通过使用标准的C口L语,我们就能够处理我们的大数据,对比如说我们在哈都当中的haveve,包括我们在斯巴克当中的什么斯巴rkiccom已经弗Li克当。
45:59
东的fli c, 这些都是我们大数据生态里面提供的什么数据分析引擎,那么通过标准C呢,就能够处理咱们的节目构化数据,好,现在咱们就通过使用咱们的flink s, 我们通过它们我们去创建一张表来保存我们的数据,数据将会以CSV文件的格式保存在我们的HTFS上,当然也能够保存在我们的卡夫卡当中,你把它保存在。
46:32
HDFS里面就能去构建我们的什么离线的数仓,你把它们保存在卡夫卡里面呢,就能够去构建我们的实时数畅对好怎么D呢,直接保存到HD中,嗯,当你把这个什么,嗯,你把这个安装好以后呢,直接这行并下面的什么我们的c client的那后面写上一个选项,嗯。
47:02
Or叫做我们嘛,Embed的好们怎么使用什么嵌入方式来启动我们的什么I beed的从嵌入方式启动咱们的分林克西口的什么这个命令航空就那启动完以后呢,咱们去创建一张表,把表呢保存在咱们的HDF上,好执行一个什么我们希table看一下这里面有没有次先创建好的表,没有没有有好直接通过使用标准的S直间创建一张表,那就标准C,可能我们table叫新就S表里面呢,比如说我们将会包含三个列sid表示我们的学号,它是一个整数,再来个名字表示我们的名字,它是个字符串,对数据在那个H表示我们的连,你念,我希望我把这张表呢,它的数据保存在HDFS里面,因此。
48:02
我们在fli SQL里面,它就提供了很多的连接器,通过连接器能够连接HTFS,也能够连接我们的卡夫卡等等啊,来实现数据的什么持久化的存储,对好怎么写呢?就写成写成我们的我们的为什么关,为什么关键字写到这里面呢?首先第一个选项是我们的connector,通过使用connect指定你使用哪种连接器,我们不是要使用HDFS呢,HDFS, 它是一个什么文件系统,因此要写上我们的farm,什么system,那既然是HTFS,你就需要指定它的什么呢?这个它的这个路径,通过我们的第二个参数我们的pass的就指定你想把这张表的数据保存在HDFS的哪一个目录上,需要写上HDF。
49:02
Best嘛,它的全路径HDFS,我们的冒号,我们的low host端口,HOST9000,我们直接保存在说么FNK下面的什么flinnk,今天是3月10 3月10 11号下面的创建的么是students目录,通过使用这种方式,我就把这张表呢保存在HDFS嘛,这个模式下,表中的数据将会存储在这个目录下的文件当中,文件格式直接采用咱们的CSV啊,写上咱们的第三个参数,我们的什么这个format的指定格式是我们的CSV文件,它通过使用这样的一种方式,我在flink CL里面我就创建好了一张表,它对到HDFS一个目录上,既然表创建出来以后,你就能够通。
50:02
通过使用标准的C口L语句往这张表里面呢插入数据,也能够去查询数据,In that, 什么inter,我们的这个table students values in that into我们的表students values1home。名字叫做我们time,年龄是21岁的,当你执行这些CQ的时候,它将会变转换成是我们的林克任务呢,运行在我们的弗林克件之上,既然可以插入数据,也能够去查询数据的啊,它这些语句也将会被转换成是我们的弗林克任呢,运行在弗林克基上,查询出来以后呢,结果将会直接打印输出在地方,好,既然它会一遍转换成是我们的弗林克任务的,好,通过刚刚的什么图形化的界面,你就能够去监控到c com它所对应的任务的状态,刚刚咱们执行过两条c com已经放大一点点,一条c com是我们的什么插入语句,一条是我们的查询语句,通过这个地方就能看到你所执行的什么。
51:21
Sko与dream确实被转换成了弗林克的任务呢,运实在弗林克军之上。因此后续。如果说大家在大数据体系里面,当你要处理结构化数据的时候,尽管可以使用Java程序,也能够使用咱们的SC拉程序,但是更简单的一种方式是直接协一调什么C口语句,那么就可以,因为我们在整个的什么大数据体系当中,提供了很多的这种什么数据分析引擎,那只要看到了什么数据分析引擎这六个字母,大家就要反应过来,它是支持我们标准的C口语句,对,比如说我们在哈都当中的have,或者说我们的斯sparkic,或者说我们的flinkic,还有我们PAL等等等等,还有从衍伸到这地方呢,关于我们的第二个部分flink的DEMO演示,就给大家演示到这里啊,好,问一下大家这三个DEMO示例大家是不是。
52:31
都看明白了,如果说这3个DEMO的司令,那么大家都看明白的呢,就请在我们的嗯。公平之上请给赵老师呢回复一个1,或者我们给赵老师呢点个赞,好,那么前面的这些知识以后呢,那么我们就讲一下整个flink生态圈体系里面都包含哪些组件,好这地方呢,我事先准备好了一张图片,好这张图片就给大家完整介绍一下我们的flink生态区划系统里面到底包含有哪些组件,刚刚有些部分都给大家介绍过,就刚刚也示过我们的什么,衍示过我们的这个P处理引擎datatime set, 通过使用这个什么data set能够处理我们离线数据,比如说能够处理HD,而它的流处理引擎叫做我们的什么datatime stream, 这两块人都演示过,对,好,刚刚也演示够我们的fli CL通过使用fli c呢既能够处理离线数据,也能够处理。
53:44
知识的这种流速数据,那整个flink里面还提供我们的机学型ML力,嗯,包括咖喱的么图计算,那这个呢,这是我们的机性学型杆呢,是我们的图计算,那这两个属于我们的离线计算的这一边,那么在流出这边呢,还提供我们的什么呢?复杂事件处理的嘛,Epm啊,事件处理的嘛,Epcm对不对?好,上面介绍完一会看咱们下面整个福林克里面最核心的一个部分就是它的什么,它的这个wrongtime wrongtime.
54:19
就是弗link的嘛,执行引擎,并且呢,这个执行引擎它是一个什么真正的什么实时计算,那么整个引擎它可以部署在不同的平台之上,既能够部署在什么我们我们的单晶单晶环境之上,也能够部署在集群之上,能够部署在我们容器当中,比如说你把我们的flicom跟你能够部署在我们do com或者从K8S当中,那通过使用这样的一种方式,我们就能跟集成我们的大数具体性和云原生中的容器,但是呢,目前咱们在这个大数据平台之上,主要部署的方式是我们的on ya方式,也就是我们的什么my producedu on ya, 我们的sparkrk on yam, 我们的flink on yam, 这种on yam的方式是目前我们在大数据体系当中最。
55:19
主要的一种部署方式,那什么是我们的yam呢?Yamm它是属于哈都2.0版本以后提供的一个资源和任务调度的平台,你能够把你的map producedduce, 能够把你的storm,能够把你的Spark com和flink都部署在我们的yam当中,并且flin克署在yam之上呢?它有两种模式,一种是内存集中管理模式,一种是内存任务管理模式,这个里面涉及到的更加系统的知识,当然也都会被包含在直播间当中的这门课程当中。
我来说两句