00:00
好,那接下来我们就开始进入到呃,咱们这个今天的这个课程了啊,就是咱们李军的课程了啊,那我们今天要做的事儿主要可以大致分为这样的,呃,这个两部分吧,一部分是上午的这个全流程调度,一部分呢是这个可视化啊,那这个全流程调度呢,我们在做之前呢,首先需要先把我们这个工作流程啊,就是那个work flow,是不是先给给他这个完善一下呀,咱们还剩下最后的一步,最后一步是什么,我们打开之前咱们画那个图啊。打开直接画那图来。哎,就是这个图对吧,那这些画这个图呢,我们说了前面这些东西咱是不是都已经做完了,那现在只剩下最后一步,就是把这个数据从哎,Have的ADS层是不是导到my soq当中啊,这个目的就是为了对接后边的可视化系统,那我现在问一下啊,咱们把数据从have当中导到MYSO当中,咱们应该用谁用scoop去实现啊,Scoop实现之前咱们在做采集项目的时候,是不是咱们学的scoop呀,对不对?那当时咱们讲过这个scoop呢,它具有以下这样的功能,什么功能呢?就是从海豆op生态圈到关型数据库。
01:11
是不是它可以实现从这两者之间的这个数据呢。双向传输啊,注意双向,我既可以把呃海豆腐当中的数据导到MY搜当中,也可以把MY搜Q当中数据呢导到海多腐当中,是不是这样可以双向传输啊,双传输然后在这里边呢,我们需要给大家强调的一点是什么呢?啊,大家认真听啊,我们把数据从海豆op生态导到my circle当中,那这个叫做什么呀?这个叫。叫导出从买circle搞到海度过程中,那这个叫导入对吧?啊,这个导入导出得得得搞清楚了啊,然后我们现在说一下啊,这个导入的时候啊,导入的时候我们支持什么呢?支持从关型数据库导入到海杜op的HDFS。也支持从关键数据库导入到have的一张表里,还支持呢,从HD,从那个关系数据库导到h base的一张表里。
02:09
这是我们导入的时候能理解吧,就是你的目的地啊,可以进行多重的选择,有HDFS的文件的形式,有have当中这个表的形式也有。H base当中标的形式,这是我们导入的时候所支持的几种操作啊,但是大家要注意了,我们导出导出是不是从hfs导到my circleq啊,对不对,从海杜普导到my circleql,这时候呢,我们就没有这么多的选择性了,导出的时候呢,只支持我们把HDFS上的一个文件导到MYSQL的一张表当中。能理解吧,大家这块呢得搞清楚啊,就是我们导出的时候呢,只支持把HDFS上的一个文件导到我们sol当中,把这个记录。啊好,那既然是只能支持从HW一个文件导出到这个买车当中啊,那现在我们就来思考思考了,那我们现在这个场景,那应该如何实现。
03:05
咱们现在的场景应该如何实现呀?我们现在要干什么?是不是要把have当中的ADS层的表里边的数据导到MYSO当中对不对?但是我们这个刚才说了,Scoop导出的时候只认什么,只认HDFS文件,他如果不认这个还当中的表啊,对,那这个咱们怎么做呀?那怎么整?这怎么搞?很简单呀。我们。是不是每张have当中的表是不是都在HT上这样一个路径,那路径下出就它数据文件对不对,那所以说咱就这么导呗,对不对,那也就是我们这儿呢,就不是说告诉此库你要导的是哪张have当中的表了,而是告诉他什么呀,告诉他对你那个表的路径是什么,那他是不是就能把数据导到咱麦L当中了,诶这个很简单呀,对吧?哎,确实很简单,但是咱们这时候呢,得考虑一个问题啊。
04:00
考虑个什么问题呢?你想一想,那我们既然告诉scoop的是我们have表,它所对应的HDFS路径对不对?那你说每次使用scoop往咱们的买磁方当中导的时候,你导的都是什么数据啊?都是这张表当中的全部的数据吧,因为你告诉他的是路径,对吧,你既然告诉路径,那是不是把这个路径下边所有数据是不是都导到MY当中了,那也就是说我们每天从ADS层往MYSO当中导数据的时候呢,你导的都是当前ad层的全部数据。啊,那既然是这样,那我们是不是就得考虑一个问题啊,啥问题啊。对,我们往MYSQL当中导数据的时候呢,是不是就会出现一个这个数据重复的这样的一个问题啊,对不对啊,因为你每天从啊这个AADS层往MYSQL导都是全部,那原来那个历史数据是不是每天相当于都会导一份啊对不对,那这样一来咱们就必须得考虑,我们一会儿往H往MYSQL当中导数据的时候呢,出现的这个数据的重复问题啊,这个咱们怎么解决啊,那这时候一会我们得去思考思考了啊好,那大家现在呢,先把这个疑问呢,先给大家留在这儿啊,一会儿咱们讲到这个位的时候呢,咱们再讲这个问题如何解决啊,好,那把视频录一下。
我来说两句