00:00
呃,你这个压缩创建完之后,那怎么用呢?我们需要在这个这个拉螺呀。这个大家都知道,他说这个支持切片,支持切片,如果正常情况下呢,你不做任何处理,他不会支持任何切片的。就说你上传一个,假如说这里面你看啊,我上传一个150兆的数据,那要是支持切片的话,它应该会切成两片。对吧,啊,执行这个两个这个切片进行运行。那看一下实际的效果,它是什么样的。啊,实际效果是什么样的啊,那我这里面是没有做这个这个一一会再教大家如何这个键拉烛索引哈,我们就先将这个big date这个文件上传到hi do的呃,集群的input那个目录下。啊,进行一个测试,测试这个文件。测试的话,c.model。把文件拿过来。再给大家资料里面。这有一个拉布罗测试这么一个文件,它的大小是多少呢?哇,这么大,是214兆哈。
01:01
穿过来210~128啊,应该还是两片啊,还是两片,嗯,涂再过来。所以这块呢,大家那个副本啊,尽量设成一,你像这一个文件200多兆,你两个副本下,三个副本下去,就相当于是600多兆了,你就记没了啊。这块注意一下OK。那上传完毕之后呢,查看一下,这里面就多了一个这个big table啊拉罗,它是拉罗形式的哈,这个文件怎么照其实也很好,你们之前讲那个呃,MR的时候。MRMR呢是有三个地方能进行压缩,一个是输入端,一个输出端啊,还有一个radio是输出端,这么三个地方,那你就可以控制这个输出这一块,给它配成拉罗。啊,输成拉出文件就行了啊,这是可以实行的啊行,那具体这个过程我就不给大家演示了,嗯,这个开法FS-make d。
02:00
Input。OK。啊,然后呢,How to,把FS-put put这个big table down中。很慢啊,因为文件比较大一些,好上传成功了,上传成功之后呢,我们来看一眼。艾多玛,他。OK input这里面就多了一个它哈,多了一个它这个呢是两百两百多兆,哎,上传上来了,上传上来之后呢,我们对它进行一个求部的看啊,这里面一是一堆乱码,因为是拉的格式嘛,肯定是一堆乱码,但是呢,这个呃,不耽误我们去求这个word count的。因为我们想做一个实验,就看它有几个切片对不对,那我们可以这个。看一下啊,还怎么加。然后塞尔。
03:11
这里面有个。这有脏包,然后我们运行的是word count,然后输入路径呢,是这个input啊,输出路径呢,就是这个output。可以吧?看信息也能看到几个框啊,你得这么练呢,我们来看一下,看下几个框。存的时候是两个块对吧?哎,它是两个块,那我问你两个块它就一定是两个切片吗。来看一下,两个块就一定是两个切片吗?嗯,叔叔好,再见。对吧,没问题吧,这是输入数据,这是输出,我看看咱们很熟了啊。看一下来两个块是几个切片,就看这一行啊SP。你仍然是这个200兆的数据,正常情况下我们的理解应该是几个节点。
04:04
现在你就能证明这一件事,对吧,我这是拉出螺文件200多兆的,按理说咱们总说这个拉螺它是支持切片的,那实际的效果现在也没支持啊。啊,大家可以思考一下什么原因导致的呢?行啊,他现在这个跑的结果,跑出结果已经不是重要的哈,我们就看这个在这个执行过程当中这一块。哎,看它的切片。对,那这块呢,这个拉住罗呀,它要想支持这个对应的一个切件,你需要对它建一个索引啊,需要创建索引,那创建索引的话怎么创建呢。这样呢,这块呢,是这个你这个嗨度方拉着罗这个架包放在什么,放路径上,那这块呢,就指定到这个路径上就行了,绝对路径。啊,这个pass图幺这个架嘛,啊,这是它官网的一个说明啊,然后之后呢,后面要跟上这个com hiop comprison拉罗disrite也是分布式的拉着罗index键索引。
05:07
然后指向对应的这个文件名称。就可以了,就这么办啊件,然后加班在哪,然后之后呢,是一个这个全列名之后。啊烂啊,要先索引啊行,那下面的话,我们就对这个文件呢,进行创建一个索引开拓加包,然后呢,OD。在这呢是吧,边存在这这个路径上之后呢,我们要经过这个全列名它,然后路径呢,是一个机群路径input下它。啊就可以了,我看执行完没啊,还在跑啊,还在跑,考验我电脑性能的时候到了啊,这个你们呢,这个可以及时的把它停掉啊,也没有必要这个非得等他跑完啊,因为等他跑完的话,嗯,那很麻烦,对传一个文件就得建一个文件是这样的哈,没办法。有一个文件就得建个文件,当然了,这种操作你可以写一个脚本啊,对吧啊,一个文件就得建一个必须的啊。
06:01
那多麻烦,那你这你只有对这个大文件才会建这个索引呢,小文件没有必要啊,你写一百八兆还有必要建吗。那换一个角度来说,如果你这个文件是这个,呃,十个T,那你必须得对它建索引呢。如果你都是128兆文件,就没有必要去建了啊。看一下吧,等他跑完啊。再开一个。嗯,C DOD model来到这个目录下啊,要执行的就是价啊,要执行哪个包呢?呃,在这个三目录下。嗯,虽然录下刚才呢是放在下面有个common common下面我们放了一个。Hiop拉着罗啊,这么一个架包,呃,这么一个价包之后,后面是包含这个全类名,这个全类名我们拿过来啊,这个全类名呢啊,Comop compson拉罗deput。哎,这个。然后呢,这个是键索引的一个类之后,后面指向的是你这个文件在什么位置,那我们在的是这个位置,这个位置下面这个文件名。
07:11
拿回来。对吧,哎,就这么一个文件啊,别着急啊,等待一下啊,手写之前你可以再看一下这个目录一下。这目录下的目前只有这么一个文件,对不对啊,只有这么一个文件。别着急,我看跑完没啊,这边跑完了是吧,哎,跑完了跑完了这里面能看到这一个切片就行了,那我们再来跑另一个。创建。啊,这创建索引还是一个分区啊,这个没关系啊,这是他创建索引的过程。也就是架拉住。全类名最终的输入文件路径。这个相对来说会快一些啊,因为数据量呢少一些。
08:05
OK,那这个跑完之后呢,我们来到这哈,来到这你看一下还是这个界面哈,刚才之前是只有一个对吧,刷新。刷新之后你会发现哦,这有一个big table拉着罗index啊,同时这个文件会很小啊,它就是索引啊,它就是索引啊索引文件,那有了它之后呢,那我们再来重新去跑一下这个文件,这个任务啊,比如说我们。再来执行这个work还是还多。嗯,还是然后呢,是这个count input改成二。对吧,啊二走再执行一次,也说创建完索引之后,我们再来执行。看一下number of SP please,现在就已经变成to了啊,变成to了,你说现在呢,它这个再次切片呢,就已经切成两个了,这就是这个large文件,它是支持切片的啊,原因就在这啊,就在这儿,所以说那个以后啊,这个这地方是能代表你有开发经验的。
09:02
啊,否则一些这个其他人说这个啊,我用这个拉入压缩,那拿过来就能支持这个切片啊,其实这是不对的,你需要呢,做一些这个额外的处理,比如说电索引之后,他才能正常的一个工作哈。这是这么一个情况啊。嗯,那是这一块啊,再次进行word OK。
我来说两句