00:00
好,接下来呢,我们看一下这个企业真实面试题。那肯定是重点了。这些题呢,都是我这个从原来的这个应该是100多家吧,面试题当中抽取出来的。看一下你是如何实现母数据传输的监控的。使用第三方格拉实施监控服务。搞定满分,Perfect。真是这样的哈啊,其实邪就这样,甚至你一说能说出刚拉之后,直接对方就已经晕了。啊,不知道你在说啥了,觉得你嫩了,笑话好牛。这么一个结论。市场就是这样的啊。啊,那你一说这个刚格拉基本上就是啊,上大毕业的啊,我操。也许对方就是是吧。那再往下from的south China的作用,这个没啥说的是吧?South是采集数据,Think写出数据对吧?China缓存数据对吧?呃,简单粗暴一点就OK。
01:03
你们的是什么类型?那上次我们讲过几个。日志的是吧,啊,日志文件的啊,有日志文件夹的啊,还有什么。啊,还有这个端口的,但是啊在企业中日志和文件的是最多的。文往哎,日志和文件有对着文件或者文件目录这两种。比如说我这俩写的是比较临时写的啊,其实其实要准确一点,是把上面。的文件啊这个。那这种呢,其实它是。还有一个呢,是这个,呃。对吧。不是这个。对,这两个是比较常用的。这两个啊。
02:00
行,那这是这一块,那下面再来看呃,From的China letter。啊,那你说你看看你就问你这个哪两个这个头显示器是吧?啊子显示器我们是不是有哪两种。啊,任培景还有一个啊。应该是应该招聘的。那这个呢,默认的啊,默认的就是像所有的传送通道都发不出去,对吧?哎,那这个呢,是不是选择性发呀,啊其实你要设成这种的话,那你就后面还得继续的一个设置啊,到底选择哪一个通道。那再往下这个普参数的一个调用。啊,参数调优,那这个我们要看一看啊,稍微读一下在上端如何调优。最主要的是增加这个south的个数。说前期数据比较多的时候,你可以增加那个个数,你看那个,我刚才说企业内不是39个吗。
03:00
生加,这个可以增大source的读取数据的能力。例如某一个目录产生的文件过多时,需要将这个文件目录拆分成多个文件目录,同时配置好多个上。以保证有足够的能力获取到新产生的数据。这个就是为什么他之前配了39个的原因,就是因为他数金数据量特别大啊,所以说才这么配置的啊。好,那这里面有一个。一个批数里的一个大小啊参数决定了一次批量运输到的事件的条数。适当的调大这个参数,可以提高搬运的到传的气能。我一试,原来运100个,现在运成1000个,那前提是得能运,对吧,如果你这个机器性能OK,那我就足可以调大这个的次数。啊,因为他。省得来回倒了嘛,是吧,啊,比如说你这个把里边的椅子搬到隔壁班,你一次搬100个直接拎过去。
04:01
这个路上的时间是不是都省了你否则的话,一次淋一个,一次淋一个,这就得100次。这个意思啊,批了。那下边呢,是这个传这块啊China呢选择也是内存,那传的性能是最好的快嘛,啊内时都说他说度快,但是呢,如果我意外挂掉可能会丢失。这大家都懂对吧,那都懂,那选择file呢,传到这个容缩性更好,但是呢,性能上比性能差没得说,使用传时date d时配置多个不同盘下的目录可以提高性能啊。这个呢,是后面可以指定它的一个存储路径的啊。那再往下呢,是这个容量的参数决定穿越到可容纳最大的。现在混的混存的这个条数。
05:00
缓存多少是这意思吧,啊event,那么也就说这个事物这个提交的这个缓存参数决定每次往里面写的最大的一半的条数和每次性从头里面读取的两个,呃,读取的最大的这个一般的条数。这是两端的事物对吧,端和think和think端两端的。那这个需要大于和的。其实就是你这个一次传输的这个数据,比如说都已经是1000条了,那你这个容量如果小于1000,那甚至提交上去了。这。你看你这个这是往那个先是吧子的。往这一传,你这边来过来100,一次读100,那你这个容量是100。啊,这是1000啊,一次读1000,这是100是容容不下,所以说他肯定得大于他就管成绩肯定得比原数据大呀啊。这意思啊?那这个参数值你可以把它适当的调大,就是调大内存呗,啊优化的手段无外乎就是增加你的内这个内存啊。
06:05
但是这个前提就是。机器得行哈,啊,不行。那另一个呢,是这个think,增加think的个数,可以增加消费event。能力。这其实也也不难,你这个原数据在这呢,我把你按类分成多个这个。往出血。啊,把这个能力呢,就给你分散了嘛,那他读的他和他读单独去读,这个速度肯定会比一一对一的去读会快一些,啊这个呢也不是越多越好,够用就行,过多的性格和占用系统资源,造成系统资源不必要浪费,这个跟开启我们map当中的reduce探索的个数是一样的。哎,这个你可以要去调试这个最佳值是多少个。这意思半size参数决定这一次批量从读取event的条数,适当的调大这参数可以提高S从China搬出的event性能。
07:08
还是提高这个,所以说你稍微总结一下,你看啊这么几个点。你要是这个算端优化,那我就增加这个多个输入呗,对不对啊,这是最主要的,那再往下呢,是这个,同时还有这个你可以提高这个一次批量读取的文字,那这个传这一块,那就是最主要的,就是看你如何去选择外内存和内存了。然后同时呢,这里面增大这个容量和传输的容量。那性格呢,最主要的就是增加这个批处理的大小。从这么几个角度都可以去提高哈,OK。那这两家呢,是辅助的这个事务机制,那这个事务机制呢,其实我不用你不用太复杂,你只需要把。这张图给我画下来就行。就这张图。
08:00
对吧,啊,就这么简单。就把这张图拿下。其实很简单,如果你能把这个名字叫出来,呃,这个list list,那你就更好了。至少要知道是put和take,比如说推和拉,这是不一样的。那这个是事务机制,那再往下采集数据会丢失吗?采集的数据啊。不会啊,因为它存储可以存在这个file当中,数据传输呢,自身呢,又有这个相应的事物。啊,又有这样的事物,那除非你这块你用的是内存。那那那有可能会丢啊,因为你这个真的当瞬间挂掉,你存在内存里了,那肯定是要丢的,所以说这个地方呢,要跟他进一步的一个解释。呃,不是说呃丢和没丢,这个看他采用的具体是哪种形式,那一般往往这种情况呢,是在银行。啊,银行你说你传输的这个数据是这种不允许丢的啊,跟钱有关系的,一般都是不允许丢的。
09:01
那这时候,那你只能牺牲性能。啊,采用这种啊,这种传输啊,同时加事物对吧,事物这种。而且呢,你像你的二级flu。是不是也得采用这个主啊啊。是性格主。毛竹栓前一集呢是多个。那这也是性格,一个挂掉,还有第二个,第二个挂掉和第三个。OK,这就是当前最主要的几个标题。所以说后面还有几个面试题没往上放。其实就是。拦截器。弗拦截信,但那个是在项目中去讲,因为我现在讲了,你也你也你也记不住,你也理解不到位。那是这一块啊。另一个呢,就是往这个。卡夫卡里传。哈哈,产啊。然后最终又传到了这个HTS,就经过了一个卡夫卡之后传到HTS。他会问咱们这个项目架构为什么这么设置,为什么要加这个。
10:04
交锋,对啊,武林这个最高最高境界是吧,交锋。那这个就OK了啊,你们。会抢答了啊,我觉得。所以说这个辩题呢,还是比较简单的啊,比较简单的。但是真正开发的时候,这个第三章。和这个第五章没讲的,也是下周要讲的,这还是重中之重啊,还是要会的。
我来说两句