00:00
好,那之后呢,是我们所讲的这个事物,事物呢,就之前我们当时所聊的时候,就告诉大家里面有数的事物,有take事物。对吧,有put list,有take list啊,记住这些东西就够了,因为我们今天会讲到这个词,Source跟词。那么我们到时候会结合源码去给大家去看一看这个事物它到底怎么走的,其实我们看准是事物啊,那大家就觉得既然是事物的话,那么就不会丢数据了,对不对,对吧?啊,实际上不是的,在分母当中,就算它这块有数,照样会丢数据啊,到时候我们可以结合源码去看一下为什么会这样。啊,这个要注意一下,它必须就是说你要想做到不丢失物,它跟前面的source还有关系啊,就是你用不同的source,它会导致不同的结果,有的source呢是不会丢数据的,但有的sources它照样会丢数据,到时候我们可以来看一下啊好,这是我们所聊事物啊,前面呢就稍微记一下,后面结合原法来聊之后内部原理啊,再不看这张图,我们想一下,我自己来捋一下,它实际数据从这个源头到我们这个结束,假如说从本地文件到HDFS这套流程当中,它到底经过了哪些组件。
01:16
第一个source对吧,Source呢,去读取数据啊,然后呢,把它封装成所谓的我们的事件,然后传给谁了。就就直接到China了,中间的那些点呢,叫China处理器China process对吧,然后由这个process去调用,接下来调用的是什么叫拦截气量。对吧,啊调拦截剂量,所谓的拦截器剂量呢,就是说多个拦截器啊,你可以写多个啊,当然你如果说只有一个也行啊,不一定非得是多个对吧?啊经过拦截器,然后呢,又给他了,给它好以后,接下来呢,就到China了吗?China选择器对吧?因为这条数据到底给哪一个China还不好说。
02:09
啊,我们要交给这个China选择器,那么China选择器当中它有几种策略,两种哪两种?副本和对副本和多录复用,所谓的副本机制呢?因为我们知道一个source可以绑定多个产能,如果说咱们用的是副本机制,那么source接收到数据,哎,两个人都干什么?都发,两个人都发一模一样对吧,完全一样的数据发两份啊,所以叫才叫副本嘛,对吧,副本肯定就是一样的东西来两份啊好,那将下来还有一个叫multiple,就是所谓的多路复用,那这种的话就是可以根据数据当中的投信息,我们当时就是这样聊的,所以得在投信息当中加一点东西,那浮用框架呢,他们根据我们的头信息决定将这条数据发送到哪个产道里面。
03:06
当然有的数据呢,你也可以发送到多个天,这也是可以的。啊,这个可以的,就是说假如有三个对吧?哎,第一条数据它可能是一个什么错误日志啊,我就发送到错误的拆断里边,就是有个错误的名字,我可能有个拆断的名字,我们把它取名叫错误啊,不是说那个错误的China是那个意思啊,然后接下来有可能这个数据呢,它是可能给后面两个人要用的,对吧?我这条数据我们也要判断诶,没有错误信息,假如说是类似于什么启动日志,里边包含什么S,我传给第二个,第三个产能对吧?啊,类似于这样的操作都可以啊,非常灵活,可以自己去配置啊,大家再来一条数据,说里边什么都没有对吧?没有error,也没有S,没有什么其他的,哎,三个人都发这个也可以啊,那非常灵活的配配置,就是说你可以配置一个或者多个啊。好,那刚才我们说的是这个China选择器,Multile这种模式它相对来说比较灵活啊,那今天呢,我们就要去看,但是呢,China选择器如果说我们用marketpla的时候,刚才我们是不是提到了要在投信息,呃,刚才我们是提到了说如果用多罗夫用这种China选择器,那么它用的是我们事件信息当中头入头部的一些信息来决定的啊,所以呢,在我们使用multile这种模式的时候啊,是要结合着拦截器来用的,因为我们要给它的头信息当中,头当中添加一些东西,对吧?啊要设置一些东西,所以呢,要结合着拦截器来使用,而如果用的是呃,Remi,也就是说资本机制那是不需要的,你反正大家都发对吧,没有什么特殊的信息啊,大家都都需要去发,所以说我们开始测的时候,这块说的是复制和多支复用,其实我们先测的是复制。就是说三个人两。
04:56
哎,都有的一样的那种数据啊呃,那之后呢,是我们所聊的它的一个整个这个。
05:02
哎,应该是还有这块啊,应该内部原理当中还有刚才我们是将这个数据经过了拦截器,经过了China选择器,然后呢,终于数据呢,到我们的China里边了,那China接下来是不是要跟我们的什么think去交互,对吧?那think这块它又有一个什么概念,叫think组对吧?叫think组,所以think组当中它又有几种策略呢?想一想。三种对吧,三种或两种都行啊,因为第一种默认的三个组啊,它只能接收一个。组啊,不是一个组啊,是一个think一个think,然后另外还有两种,一种叫负载均衡,还有一种叫故障转移,对吧?啊故障转移风险电能呢,就是说啊,那假如说你有三个C,那三个C呢同时工作。
06:02
对吧,轮流去拉取啊,先你拉取,然后再我拉取,再你拉取,然后如果说是互障转移,就优先用一个人对吧,优先级最高的,那当你这个优级挂掉了再干什么,再用另外一个对吧?再用另外一个是这样的一个情况,好,这是我们所聊的它整个的详细的处理流程,之后呢,是一些拓扑结构啊,那这个我们就先不聊了,因为我们等会儿呢,结合这块内容要去聊详细的案例了啊,到时候我们结合案例去看也可以啊。
我来说两句