00:00
前面我们已经简单的介绍了一下,直接以本地一个节点去启动一个集群,怎么样去做?其实很简单,就是直接把下载下来的那个安装包啊,解压之后直接一起就完事了,什么都不用改,那接下来呢,我们就讲一讲,就是真正的一个集群应该怎么配置。我们说这个在实际安装部署的时候,你肯定不可能只有一台机器啊,啊,那大数据如果要一台机器,那也没有意义了,所以我们还是要把这个集群配起来,怎么配,刚才大家其实也已经看到了,首先你应该自己要对集群里边的节点,它的角色有一个清醒的认识,比方说像这里边我们的定义就是。三台机器。杜,102是manager,然后另外两台103 104,他们分别是task manager,那我们接下来如果要去做这样的一个集群启动,应该怎么去配置呢?肯定就是更改一些配置就可以了嘛。所以更改的过程当中主要就是。
01:01
指定drop manager怎么指定在flink com.yellow里边,把当前的这个drop manager rpc address改成哈,都是102就可以了啊,这里大家看到没有说一定要把这里的这个。还记得前面我们有有有一个这个。Masters对吧?啊,没有说一定要把这个masters里边的local host改过来啊,这个确实是。不是那么重要啊,因为你如果要是Li ya里边已经改了的话,那当前的我们再去调用就是启启动集群啊,调用这个job manager,就是起这里边的这个job job manager调调这个脚本的时候就是在102上去调的啊,那么它的那个masters,你看到的local host,起这个8081对应的那个端口创建web UI其实也就是在这里了啊,这个就没有任何问题啊。所以这样的话就指定了当前的job manager是谁。那如果要想定task manager呢,当然就是在。
02:06
Comfort的workers下边把对应的幺哈杜1103和哈杜104写进去就可以了,只要把这些搞定,把这些改了,那接下来我们就可以同样去做一个启动了啊,但是大家不要忘记,就是说你之前单节点启动的话,只要102上把这个解压出来就完了,你现在多节点要就是整个集群要启动,那别的这个机器上它连103104上,如果要连flink都没有的话,它怎么能启动task manager呢?那肯定不行,对吧?所以需要把当前的这个flink目录要分发到103104去,这一步大家不要忘记啊。我这里面就都已经分发完了,接下来也非常简单,跟前面一样,并下边。Start cluster直接启动就完事了,大家看到这里边我启动的时候很明显看到啊,Start stand lo demon on host,哈杜OP102啊,所以当前我们这个集群的接入点的这个进程是在哈杜OP102上。
03:12
然后呢,呃,是这个task executiveor啊,整个我们这个task manager的进程是运行在了103和104上,那接下来我们GPS一下看一眼啊,大家会看到这里边多了一个。Stand alone session cluster entry point。啊,这是前面我们看到的这个东西,但是这里面没有那个task manager runner了,在哪里可以看到这个呢?当然就是在哈杜普103和104上。这里可以看到,大家看到这里面有一个task manager。这里也有一个task斯克manager装的啊,别的这些我起的大家看到就是我把这个哈多普起起来了是吧,不会影响啊,我们关键是看这个弗link相关的这些组件,这样的话就做了一个启动。
04:02
那起起起来之后,接下来怎么办呢?啊,接下来其实就可以访问了啊,你可以在自己的虚机里边访问,那正常来讲,大家在。在自己的主机里边,应该也是能够跟这个虚机去连接去访问的,对吧,我这里面直接去阿杜要用102啊。因为大家知道102。081我们的job manager才会提供对应的这个web UI。这样。一访问的话,就会看到当前的这个,呃,Web UI展示了我们当前flink集群的一些状态。首先这里边看到的就是。可用的任务槽task slots有几个?诶,为什么它这里面最重要的显示的是这个呢?这表示我们当前可用的资源啊,对吧,这个资源如果变成零的话呢,相当于我们这里边就没有资源可用了,你就不能再提交任务了,好,那这里边下面就就会说我们总共有两个task manager,然后总共的tasklo是两个,可用的是两个。
05:04
呃,没有用吧,没有任何的作业在执行吗?那为什么这里边一共是两个呢?呃,前面大家还记得我们在配置文件里边不是默认有一个这个叫。Numbers of as slots对吧?有一个这样的一个配置,那么当时默认是一,我们没有改,所以直接启动当前就是lot。每一个它manager都有一个,那总共不就是两个吗?啊,所以这个就很容易理解啊,大家可以把那个参数改一下,然后看看是不是这里边的这个,呃,对应的这个资源就会变多,这是当前的这个呃,主要的页面啊,然后这里边还有一个running drops,现在我们没有在运行作业,当然就都是零了,下面是这个它的列表啊,另外还有这个已经完成的列表,这些都可以在在这个jobs这里边单独去看到。啊,另外还有就是当前task manager的状态,大家可以看到有两台机器对不对啊,这里边我们一个104,一个103啊,这里边它的很多信息都可以用可视化的这种形式看到啊,我们这里边堆内存有多少,每一部分这个内存占用到底是多大,大家看到有这个manager memory啊,然后还有这个off,就是对外的这些内存占用的有多少,感兴趣的话可以看一看,这就是当前flink里边啊,对于这个内存的一个划分,这里边不是有一个概念叫total memory吗?什么叫做total process memory呢?
06:30
它包含的就是包含的就是包括了。Flink我们启启动这个探索manager的时候,它其实本身是一个JVM进程啊,大家可以把它理解成是一个GVM进程,所以它需要有一个GVM的对内存,另外一大块就是对外内存off memory啊,那这里边呢,有flink要管理的一些内存,后面要讲到的那些状态都是放在这儿的,另外还有一些所谓的直接内存direct memory。那另外还有一些JVM本身它自己占用的一些,就是它的这个mepace啊,或者它的一些额外的这些开销,这一部分是不包含在。
07:08
所谓的total flink memory里边的,但是我们会看到他会放在我们当前的这个就是total process memory这个里边。啊,这这个就是各种各样不同的概念,可以看看这张图,一目了然啊,这里简单的说一句,就是最简单,就是这个man memory,这其实就是后续啊,要放我们对应的定义好的那些flink里边的状态的。那对内存放什么呢?对内存当然就是放我们定义的那些对象了,在代码里边本身定义好的那些对象放在对内存,好,这是task manager,那job manager里边当然也有这些信息的展示了啊,最后还有一个叫submit new job,哎,这就是后面我们讲的,既然集群已经提起来了,那后续我们是不是就可以去提交作业了呢?诶,当然就是通过这里边的这一个接口就可以去做提交。
08:02
啊,前面这里只是把这个集群起起来啊,那大家可能知道起起来之后,假如说我们想把这个停掉,又该怎么停呢?啊,非常简单,还是stop cluster就完事了啊。所以这个非常。非常简单的一个操作啊,只要大家把配置文件做好。接下来这里就没有了,对吧?啊,那当然如果你要再看一下103和104的话,显然这里的那个task manager也就没有了,大家可以把这个task manager和job manager都看作一个GM进程。这就是集群启动的过程。
我来说两句