00:00
来我们整体一下规划自己的采集项目,这个当然咱们现在目嗯规规定这个采集是什么?采集是日志对吧?日志我们现在目前日志的分布是在102103这两台日志服务器上面啊,在这两台上,呃,那咱们首先要想采集这个文件得部署这个是肯定的,那咱们部署在什么地方啊,前面说了只能采集本地磁盘上的文件对吧?那所以说肯定是跟日志在一块的啊,那也是102103,我们呃分别需要部署一个啊,那后续呢,咱们需要将呢给它输送到咱们的这个卡夫卡当中啊卡夫卡里边啊,那到了卡夫卡之后呢,最终其实目的最终目的地是HTFS啊,那怎么将卡夫卡这的数据放到HTFS呢?那咱们还得再需要来一个,来一个什么,再去来来一个啊,再来一个啊,所以说这是咱们整个的这个日志的采集通道啊,那咱们怎么规划呢?目前102 103我们需要各自起一个录,对不对,那幺零这个。
01:01
这后边不还得有一个幅度吗?后边这个咱们给它部署在呃104上面啊,咱们这么去规划行,那整个的通道咱们现在是呃规定好了,呃,然后我们接下来干什么呢?接下来整体的分析一下啊,就是咱们前面的和后边的我们应该采用啊,就是它内部的配置到底什么样的啊,比如说前面那个我的S要用什么啊对不对,那我的这个China用什么,我的think用什么,包括后边这个也是一样的。啊来,咱们现在一个一个规划一下啊,现在整体上看一下,行,我们现在先说前面这个,前面咱们虽然要部署的是两个,其这其实这俩应该是一样的吧,对不对,咱们就以其中一个为例啊好,那前面诶给我发。小白羊是吧,啊,一会儿再那个给大家传啊,来我们看一下。好,假如这个呢,就是我们102或者是103上面的一个辅助,那S呢,我们现在要采集的是文件,那能够采集文件的S我们知道有三个对吧?Eec啊,Sport DR啊,还有tail DR啊,有这样三个,呃,现在先给大家直接说啊,就是我们现在用肯定是使用tail DR source啊,那至于eec source为什么不用啊,Ling source为什么不用,咱们后续再再给大家分析啊,所咱们现在先规定我们这用的是tellil s啊,那它完之后呢,那后续我们目的是什么?前面这个的目的是把数据放到卡夫卡对不对?那要想放到卡夫卡,那你说我们这个think正常用啥?
02:31
卡夫卡think这个肯定没问题,对不对?哎,这是一种方案啊,那卡夫卡think中间咱还得需要再来一个呃,Channel,那channel咱们可以用memory,可以用这个file,对不对?你看你追求的是什么,追求的是呃,速度啊,如果说这个数据没有那么的敏感,没有那么的重要啊,我允许少量的就失,那就可以用memory啊,如果数据非常重要,我不允许丢失,那就可以用卡夫卡啊。呃,可以用那个,那个file可以用file,这是一种方案,那或者说咱们还有没有其他方案呢?我其实目的就是把数据写的卡夫卡就行,对吧?那还可以用啥呀?
03:03
对,直接可以,咱们直接可以用卡夫卡channel啊,你要用卡夫卡channel诺的话,那前面给大家讲过,所谓卡夫卡channel,你就把它当成一个什么就行了。就当成一个卡夫卡当中的topic就行了啊,就是卡夫卡弄成一个topic啊,因为你往channel里写,那实际上就往哪写呢?就是往卡夫卡这个to币里写呢,啊,比如说我这儿有一个生产者对不对?哎,然后往卡夫卡对应的to流写,哎,这就是卡夫卡channel诺,哎,那既然咱们要是用的是卡夫卡柴诺的话,那咱们这还用还用think吗?不用了啊,因为数据已经到了卡夫卡了。啊,确实就是这样的啊呃,那咱们换句话说呢。那假如说我现在啊,我想从卡卡里边读数据。啊,我想从卡夫卡里边读,要读的话,那可以怎么去设置啊。啊,一个一个flu,我要从卡夫卡读,那正常是不是得来一个卡夫卡S啊对不对,那现在假如说我也使用卡夫卡channel,然后后边配一个think卡,这是不是就相当就不要south了,对不对,这时候相当于也是直接从卡夫卡里边堵出去啊,哎,是这样的啊,所以说其实夫卡呢,有三种使用,呃卡普卡channel啊,实际上有三种场景啊,一种场景就是有S有think,一种场景是有S没think卡,还有一个呢,就是有think没S啊就是这样三种场景,这个后续咱们再说啊,再说那现在现在呢,咱们就呃规定一下,给给大家说一下,我们现在文档上方案,咱们文档上方案前面这个我们用的就是tell s,再加上卡夫卡title,卡卡title之前大家听过,但是没用过,这次咱们用一下啊,这是咱们前面这个助是没有S的啊,没有think好,那接下来咱们再看后边那个啊,后边的后边咱们要干啥呀。
04:50
咱们是不是要要做的事就是从卡夫卡里读数据,然后把数据呢,给它写到H牌子上啊,对不对啊啊这是咱们后续的规划啊,那后续的规划咱们来看一看啊,从卡夫卡里边读,那经典的做法就是来一个卡卡S对不对,经典就是卡夫卡S,然后呢,配一个China,再来一个HDFS,这个是没有问题的,对吧?或者说咱们刚刚刚给大家简单说了一下卡夫卡channel,那咱这可以怎么样,卡夫卡channel再加hdf think是不是就可以了呀?
05:20
啊,是这样的啊,那咱们文档上采用的是哪个方案呢?咱们采用的是前者,就是那个经典的方案,就是卡不卡source啊,然后呢,加上一个诶fair channel,咱们这用的是file channel啊呃,这个其实在这用memory channel行不行呢?啊其实也行,Memory channel也行,因为咱们采集的就是用户行为日志对不对,所以说我我丢呃一点数据呢,其实对咱们的影响不是特别的大啊,所以说去那用ma channel引行,然后咱们这采用的是file channel,呃,在这之所以采用file,更主要的考虑是什么?更主要的考虑是想让大家去用一下这个file channel,因为咱们前面的课程呢有涉及到对吧?啊就是这用一下看看到底怎么用啊,这是fair channel,然后边呢,用一个h think,把数据的给它来传到HS,这是咱们文档上采用的这个方案啊,当然在这你要不想采用这个方案行不行,可以你直接自己把它替换成卡布卡柴诺就行啊,卡布卡能怎么用啊,一会咱们会讲的啊,一会讲的行,那这就是咱们前后两个flu的这个,呃,这个规划。
06:21
啊,前边flu采用kod s加卡卡channel,后边的呢,我们采用KA卡S啊这个fair channel h Di think中间呢,有一个卡夫卡啊这个数据呢,相当是诶这么走的是这样的啊当然现在同学呃看到这套架构之后呢,可能心里边可能会有一一一一定的疑问啊,比如说什么疑问呀,诶那既然刚才咱们提到了卡夫卡拆,是不是可以把数据写到卡夫卡里对不对,那我为什么不就这样去设计呢?我只来一个卡,只来一个对不对,一个来一个什么,来一个tell s中间是什么?卡不卡拆呢?那后边刚才咱们说不要think对吧,那我能不能有呢?可以有啊对不,我再来一个h think,那这样数据是不是就哎从呃这个采集写到外边的卡夫卡里,然后呢,再从卡夫卡里读回来,对不对,这是不是就相当于写到卡布卡,再从卡布卡到hfs。
07:17
是不是就实现这个功能了呀,对不对,那咱们为什么没有这么做呢?哎,这个其实可能同学应该是要是认认真思考的话呀,应该会有这样的疑问啊,当然你要没思考肯定就没疑问了啊,那一会儿咱们再把这个疑问给大家解决一下,就说为什么咱们没有这么用啊,或者说这么用为什么不好啊,咱们一会儿再说啊,行,把视频录一下。
我来说两句