00:00
嗯,好了,各同学,那接下来呢,给大家简单的说一下,就是咱们那个采集项目那个集群的一个具体的要求,对吧?咱们其实说白了主要就是保证那三条数据通道是通的就行啊,我这说的是三条啊,应该是哪三条啊,日志是不是算一条对吧?那业务数据当中的全量表我们是不是算一条,增量表是又算一条对吧?三条数据通道咱们把这他们仨搞定就行,来一个一来啊,咱先说日志,日志那个通道,呃,是不是整个涉及到所有环节就是这么多呀,对吧?啊,那这些环节呢,你要想去测一下它通不通,这个怎么能测出来呀?首先你得先把这个通道涉及到的进程都骑起来吧,对不对?那首先呢,我们得保证是不是卡不卡,得先骑起来,当然卡不卡要先起的话,得先起谁啊CK对吧,他得骑起来,然后海度我是不是必须得骑起来,因为你最终得把数据写到HS嘛,对吧,哎,这些该写都骑,那之后呢,是不是这个flu也要起来啊,对吧?大家回忆一下我们这个flu是不是咱们给他专门准备了一个启停脚本啊,对吧,就是为了方便大家启停,那前面这两个flu我们应该是用。
01:00
用一个叫做F1的脚本去控制了,对吧?那这个呢,是一个叫做F2的脚本去控制了,诶你先把这些东西用脚本都给它提起来,提起来之后,那怎样去保障,或者怎样去测试这个通道有没有通道,咱们是不是生成一个新的日志文件就完事了,对吧?我们执行哪个脚本能生成日志文件来着Lg.SH对吧?log.sh诶你执行一下这个命令之后呢,就会在二和三这两台节点是不是同时生成新的日志啊,对吧?哎,如果我们这个通道没问题,那最终数据是不是就会出现在HDF上对不对?好,那这个大家应该得会算,行诶那现在假定啊,诶我这个数据它没出现在HDFS上,那这时候咱是不是得去排查问题啊,对吧?让大家知道怎么去排查问题吧。你比如说我这没通对不对,这个怎么怎么去解决二分查找对吧,你先去看卡夫卡有没有数据对吧?卡夫卡有数据,那问题是不是就出在这儿了对吧?卡夫卡每个数据是不是可能就出在前面了,对吧?怎样去看卡夫卡有没有数据来着?哎,对,你是不是开一个卡夫卡的那个客户端的消费者就行了,对吧,就是那个卡夫卡的conso consumer对吧?哎,Cons consumer你把它打开,然后呢,消费一下咱们这个目标的topic对吧,如果能消费到那就说明有数据,消费不到那就说明没数据吧,对吧?然后你们再去看到底是哪出问题了,有问题咱们再去看日志在排查,那就完事了,诶,这是日志这个通道它的一个具体要求,好,那现在呢,我们再去看一下业务表的这个通道的要求,业务表呢,咱们分为两种,一种是全量,一种是增量,对吧,咱先看全量这个全的这个其实好测对吧,这个怎么就能测出来,怎么能测这个有没有通啊。
02:34
是不是,首先那你得保证把搜Q里边是有数据的对吧?然后呢,是不是使用data叉把数据直接一同步就就写在HTS了,对吧?H有就说明是通的,没有是不是就不同了对吧?好,那怎样启动这个data叉的那个同步任务,大家还记得吗?Data叉如果是用它原生的那个启动命令,是不是得写一个Python,然后找到那个data叉的PY,然后再给他传一个杰森配置文件吧,这个大家还有印象没有,全忘了,跟没学过似的啊,这个data叉怎么用啊?Data叉它其实用起来很简单啊,回忆一下啊,Data叉里边是不是有一个呃配置文件需要我们去编写啊对吧?那个配置文件是一个接色文件吧?接色文件里边我们最最重要的内容是什么来着?是不是就配一个reader,还再加来再来一个writer啊对吧?OK,咱们你需要去给每个表写一个这样的配置文件对吧?那配置文件写好之后怎样去启动这个同步任务呢?是不是执行一个Python命令对吧?Python找找到data叉安装目录下边那个并目录里边的data叉,点PY对吧,之后呢,再把这个接词文件给他,他是不是就会去同步咱们这个数据来对吧?诶它原生的这个同步命令是这样的,但是我们实际上呢,是不是做了一个封装啊,对吧?我们把这一大堆表的这个同步命令是不是都封装到了一个shell脚本当中啊,把那个脚本的名字是什么,大家还记得吗?
03:50
找一下啊来,那这个脚本的名字应该叫做my circle to HD FS负点sa是吧?这是就是我们写的那个date上的数据同步脚本对不对,OK啊,那这个master就是咱们的数据源ADFS就是目的地,这个负代表的就是啥呢?是不是全量同步啊,对吧?就这个意思,OK,你用这个脚本是不是就测一下就完事了,对吧?所以说实际上这个全量表要想测试很简单,你就只需要保证MYS里边这个是有数据的HTFS你给它提起来,然后呢,你执行一下刚才咱们那个对叉那个脚本,如果数据能出现在HTS,是不是就表明它已经通了呀,对吧,就表明是没有问题的,哎,好,那接下来呢,我们继续往下看,再往下呢,我们来看一下,呃,这个增量表的这这条通道,增量表这个通道相对全量表要复杂一点,对吧,它里边涉及到的环节比较多啊,里边有Maxwell卡夫卡对不对?好,那你要想测它,那你也得先怎么样呢。
04:44
怎样才能测出来呀?啊,怎样才能测出来很简单,你是不是也得先把这个通道起起来才行,对不对,起起来之后,那怎么去做呢?首先我得先起主开班,先起再起卡普卡对不对,然后呢,再写谁啊呃,再起咱们的这个,呃,或者mawell这个单不分前后啊,Mawell也起起来,然后呢,咱们也给他起来,整个通道是不是就起来了呀,对吧?好起来之后怎样测试这个通道有没有通呢?
05:09
怎样能测试这个通道有没有通?怎样能测试你像咱们那个日志,你之前怎么测的,是不是执行什么log.sh去测呀,对吧,那咱这怎么测呢?哎,其实你那怎么测都行啊,大家要知道啊,就是我们对于增量同步的表而言,那咱们再去真正的去做数据同步的时候,我们会在首次做一个全量,后续是不是在做增量啊,对吧?那首次做全量的时候,那问一下大家咱们使用的是什么功能来着,是Maxwell提用的bootp那个功能,对吧?没问题吧?OK,好,那完了之后,我们之前是不是也写了一个增量表的首日同步脚本啊。这个大家应该还记得吧,对不对,我往下走,诶我们是不是写了一个这样的脚本,叫做my circle to卡夫卡,然后呢,是INC一点SH2,对吧?买是咱们的数据源卡不卡呢?是目的地对不对?那完之后呢,INC是增量表一呢,是不是代表的是一个首日同步啊,对吧?诶是这样的,OK啊好,到这之后呢,我们实际上呢,就可以是不是利用一下这个脚本去测一下咱们这个增量表的通道是不是通的呀,对吧?这样的,那如果说那你把这个通道都提起来了,然后呢,你执行一下刚刚咱们那个首日全量同步的这个脚本对不对,完了之后,如果数据啊,如果通道是能通的,那这个数据是不是就会经过这个通道,最终写到HDFS的一个目标路径上,对吧?如果能出现,是不是代表咱们这个通道是通的啊,是这样,当然你可以用这个首日全量同步去测,你也可以用什么去测呢。
06:37
也可以用这个将来的每日的增量同步去测吧,为什么呢?因为不管是全量同步还是增量同步,对不对,那他们这走的都是什么呀。是不相同的这一个通道啊,对不对,他是不是都是经Maxwell到卡夫卡,再经到H的板子,对吧,所以说你这个用全量同步的那个脚本去测也行,或者说你用增量同步去测也行,增量同步怎么测呀?
07:02
很简单,你是不是只需要把这一个通道给它提起来,对吧?然后呢,干啥?我们再重新的往买思Q里边是不是写入一部分数据就行了,对吧?我们执行那个呃,生成数据的那个炸包是不就完事了,对吧?你执行一下加油杠这指向那个炸包,那包之后呢,是不是它会往这个买思库里边写数据,只要写数据就会生成人嘛,B浪G吧,没问题吧,因为数据变了嘛,就会有blo上,只要B上mawell是不是正常,就会拿那个blog,然后就把数据写到卡F卡写到最终到HTS,对吧?那它也会走这个通道,也就是说对于增量表而言,那咱们的首日全同步和每日增量同步,他们走的是同一个通道,对吧?所以说你只需要用其中一个测一下是不就完事了,对吧?哎,大家自愿,你用这个首日全量同步去测也行,你用这个增量同步去测也是可以的,都没问题啊,因为他们是同一个通道,一个没问题,另一个肯定也没问题啊好了,同学,那这个增量表这边呢,呃,它的一个具体要求我也就这个说完了啊,好了,那截止到现在呢,那咱们这个三条通道的一个具体要求我就说完了,然后大家呢,呃,自。
08:02
自己再去准备这个采集项目的集群的时候呢,你就按照这个要求去测试一下就完事了,都能成功那就OK了啊好,那视频我停一下啊。
我来说两句