00:00
好,那刚才我们经过测试,呃,证明我们拉色螺的配置是没问题的,能用,呃然后现在呃给大家说一个什么事呢?说一下啊,就是拉塞罗它的长处是什么长处,长处就是能够支持切片对不对,它其实啊,就是按照我们刚才这种配置,我们现在这个拉斯罗根本就不支持切片。啊,它根本就不支持切片啊,我们拉斯罗支持切片呢,是有条件的啊,什么条件呢,得有索引才可以。啊,都有作的,这个从哪能找到,你从我们这个拉德罗的这个get harb上面就能找到啊,你看上面是编译,下面是这个using卡拉是进行配置对不对,完了之后下边。在这啊,人家这个文档上,这说明了第一步咱们就是干啥呀,第一步就是给咱们的拉泽罗去建索引文件啊,然后大家要知道他这个所谓的索引是干什么用的啊,这个索引跟咱们前面讲的那个什么买S索引和那个hfs还还有那个h base那个索引其实不一样,咱们那个索引是干什么用的呀,是不是就为了加快查询对不对啊,在在这这个索引呢,就是为了支持什么支持切片的啊,这个跟这个呃,加速查询其实是没有关系的啊好,那这边我们所谓的键缩引,实际上底层就是一个什么呀,你看一看。
01:13
是不是就是去跑一个任务啊,对不对?你看怎么去建这个所谓的索引啊?呃,首先两种方式,一个呢是通过一个Java进程去,呃,进行这个索引的构建,那这个呢,相对来说呃,这个效率比较低,呃,那我们通常采用哪种呢?下边这个使用一个MR是去建索引,对吧?也就是相当于你建索引的过程就是在干啥?就是在跑一个mmr啊,就是在跑一下,那这个mmr到底怎么跑,看一看啊,首先我们需要海度和这,然后呢,后边需要指明一个炸包,炸包是什么,你看一下,呃,Pass to you还杜布拉泽罗,这个相当于什么,是不是把我们自己那个拉泽罗的路径告诉他就行了呀,咱们放在哪了?我们放哪了?我们放在OPT Mo,海杜op,然后share hadop common下边了,对吧?哎,咱们把那个炸包给他就行,玩后文呢,需要指明一个全类名,这个全类名呢,就是海豆拉子罗这个组件当中专门用来建索引的一个类啊,去给它指明,然后后边还得再转一个参数,这个参数是啥?
02:14
什么be一个field的拉泽罗,这就是啥呀?就是我们在HDFS上边那个拉泽罗所处的路径对不对?诶那个文件你告诉他就行,然后呢,他就会给你建一个索引出来啊,有了这个索引那他就能够切片了,没有这个索引就不支持切片,这大家能理解吧?哎,把这个搞清楚啊,那接下来咱们演示一下这个,哎,索引的这个作用啊,演示下这个效果啊,就是我们在没有索引的时候,我跑个任务啊,有了索引我再跑个任务,我看看这个切面的情况是什么样的啊好,那接下来咱们开始这进行这个测试啊。再往下走。来,那现在呢,我们要想进行测试,测试的话呢,那我们现在需要有一个什么呀,是不是得需要有一个拉泽罗文件才可以啊,而且这个拉泽罗文件得足够大才行吧,对不对,因为你不大的话,你是不是根本就不会切片,比如说一个10K的文件,那我切片嘛,我即便支持切片我也不会切的,对吧?那所以咱们得找一个比较大的文件,那这个比较大的文件呢,我其实也已经给大家提供好了,在哪呢?就在我们的资料里边啊,咱们CD的OPT啊,然后呢,Software啊,还do。
03:19
LH下,你看这是不是有一个比个table点拉子罗呀,那现在咱们看它多大啊,LS-LH回车多大,215兆,对对,咱们按照128兆一个片,这个正常应该分成几个片啊,应该是两个片才对,对吧?啊,那现在我们现在给它上传到hfs还做啊,然后呢,呃,FFS。啊,然后呢,杠这个put啊big data啊拉斯罗,然后呢,我们后边给他指明一个这个input路径,那input上边是不是已经有东西了呀,对不?咱把那个里边的东西给它清了啊,然后呢,就是说呃,就方便我们那个进行测试,我把这个删了啊,直接点这个删除图标就能删好,那印部的里边是已经空了啊,那现在咱们把这个传上去走。
04:05
嗯,这诶已经传上去了,咱们再刷新一下啊,已经有这个了,对吧,那这个一会就作为我的输出输入路径,那这个输出路径output咱是不是也不能要了呀,来给它这个干掉啊,点击这个delete啊,删除啊删除行,那接下来呢,我们就先来做一个测试,我现在跑一个MR,就跑word com就行,然后以这个big big这个呃,Big,然后这个table点拉泽罗文件作为咱们的这个输入啊,以它作为输入啊,然后呢,去跑一看一看我这个切片的个数多少啊,来我们海度。啊,然后呢,我们这儿,呃,然后后边我们学校,诶,算了,咱们就不敲了啊,直接拿文档上就行,来咱们把这个拿回来。哎,这是键索引对吧?啊,这是键索引,这不是键索,咱们不要键索引,我们要干啥呢?我们要执行这个word的程序啊,咱们先把这个拿过来。CTRLC,然后拿出来之后呢,我先给大家把这个命令先解释一下啊,CTRLV来粘过来。
05:01
来咱们一点点看啊,首先第一步就是海度这啊,然后呢,指向咱们那个呃大包对吧,然后边呢,我要跑的是world count,要跑的world count,然后大家有一个点需要注意啊,这个是在指明什么。map.job.input format对不对?因为咱们现在这个MR读的是什么文件。你要读的是拉泽罗文件对吧,你要想读拉泽文件,那你是不是必须得用拉泽罗文件的音input麦才可以对不对,要不然的话,你是不是识别有问题的呀?啊,那所以这块呢,大家得注意啊,得注意啊,那这个全列名呢,呃,这个也是来自于哪儿呢,大家说。是不是也是来自于海杜普拉兹罗那个账那个组件里边啊,对不对,因为在呃海海杜海杜当海杜普当中呢,他自己是没有跟拉兹罗相关的东西的啊好,那这个咱们接着往下走啊,接着走那输入路径就是我们刚才音input的输出路径呢,我就还用output就行啊,因为我里边已经清空了啊好,那接下来咱们把这个跑一下,哎。
06:00
在观察,我现在有缩眼吗?没有缩眼对吧,那主要重重点观察一下它的这个切片的个数啊,然后我们回车。嗯。大家看一下,哎,其实在这就能看出来,看着没有number of splits是一对吧,哎,一个切片啊,其实这个大家也能看出来啊,现在没有碎呀,我这个200多兆的文件,它也是一个切片,那你十个G的文件它还是一个切片啊,他说这个不切片效率肯定比较低啊,啊,那等他跑完咱们再做另一个测试啊。那另一个测试呢,我是不是得就得给他先建索引了呀,对不?那怎么建索引,怎么建索引,这个人家官网是不是给告诉咱们了呀,是不是可以通过一个MR这种方式去给他建索引啊,对不对,那现在呢,我们就给它建一个索引,那建索引的命令呢,我在文档上也已经有了啊,就是这个命令,咱们把它粘出来给大家看一下啊呃,在这儿呢,这只是什么呀,只是把文档把那个官网上那个命令粘出来了,对不对,那我们文档上那个键索引的命令在哪?诶在下边儿这个是。
07:01
啊,这个是诶改了这个路径之后的啊,咱们看一下这个命令能不能看懂CTRLV啊,这个相当于海豆这啊然后呢,指向咱们那个拉子罗的炸包啊,然后呢,全类名来跟官网一样,然后呢,咱们要建的索引是哪?是input里边的这个拉子罗文件对吧?啊那接下来咱们给它建出来。Conversey。啊,这个任务已经跑完了,这个结果不重要啊,咱们看一下这个东西,然后CTRL,诶这个诶回车直接回车就行啊走现在就是在干啥,现在是在接左眼啊接左眼,那这时候我们一会是不是还得再跑一个MR做一个测试啊,那这时候我们先把那个output是不是给他删一下呀?啊把output先给它删了,删除delete。好,那一会呢,我们再去跑刚才那个新的任务啊,这个索引呢,也需要见一会儿了。好,已经建完了,那建完之后呢,这时候咱们去观察一个现象啊,音input当中,你会发现它这时候呢,出现了一个跟拉泽勒文件同龄的啊,这样的一个文件,但是它后缀呢是index,这就是它的索引文件啊,然后大家去建索引文件的时候是这样的啊,你这个呃,可以单独指明一个拉斯罗文件,也可以指明一个什么呢,也可以指明一个路径,比如说我就指明input对不对,那你要指明路径的话,它会怎么办呢?他会把这个路径下边所有的拉泽勒文件全部建,建一个索引。
08:21
啊,然后如果说你这里边儿有多个拉多了文件的话,那你的索引是几个呢。多个注意啊,就是一个文件一个索引,一个文件一个索引啊,大家把这个记住就行了啊行,那咱们索引接完了,接下来我们再把刚才的那个mmr再跑一下,找到我们刚才那mmr,刚才那mmr是不是就这个啊,就是这个啊指明它,然后回车走。啊,大家认真看啊,哎,这时候我们看一下这个numberli是不是就变成二了呀啊,那这个就说明我们现在这个,诶蓝色罗这个索引就生效了啊,剩下就能切片了啊,咱把这个记住啊行,那等他跑完就行了,我把视频录一下。
我来说两句