00:00
好,接下来呢,我们啊,来一个这个combine案例支撑。呃,实际的演示一下,那比如说看一下需求,将输入的大量小文件合并成一个切片统一处理。比如说准备四个小文件,希望的是一个切片处理四个文件。来处理的这个文件。那好,第一件事情。不做任何处理,运行1.6节的这个word啊。观察接片个数是否为四。来看吧,演示一下啊,Word框的代码我们是。在这的话,这个就不能是了哈。找一下我这个输出路径。在阴部的下边有一个。Input input这里面有四个小文件。
01:00
分别是1.7兆左右啊,5.2兆左右,这3.4和。6.9是吧,嗯,差不多这么大。四个文件可以看。就是各种数据的一个。不是说。那下面我还要运行。同学,电脑该跑崩了吧?好的不等没问题。回来准备开始啊,看一下它形成几个切片。右键。行走。今天在哪呢?在这上面呢。
02:02
叫number of SP啊,也是切片的个数是。四个啊,四个。所以说这这地方是啊,这个日志的最上面,Number of。这么快吗?来吧,看一下吧。来右键头一下。你看多少钱。速度非常快吧,说完了。才100万吧。这个我的电脑也就仅次于半场电脑。对呀,你像那个三里屯打工的,咱是比不了的。行,那这个呢是四个截面,那下边呢,干什么呢?哎。下边我们在这个驱动类中增加如下代码。看一下这增加的什么代码叫form。把它改成combine,为什么要改呀?
03:03
不改,它默认走的是什么也不怎办。太不怎么骂他。那这个地方要改,那下边还有一个,那既然改完之后,对它进行一个最大值的设置,那这个最大值设置的就是。四兆啊,这是四兆啊,四兆,刚才我们算了一下,这几个四个文件是不是应该形成三方形电脑。就是为了证明这个事情啊,你看上面50算法这块。是1.75.1 3.46.8,跟我这个大小差不多吧,哎,差不多,那你看最终它形成几个切片,是不是按照这个机制去整的。来到这里面,找到这。就随便找个这个账户下面就行哈,然后呢,找一下包。宝宝一定找那个最长的啊,卖六子里边下的啊,可以。这就OK了,保存。保存之后呢,我们再运行一下,把这个变成二。
04:03
好,开始运行。是不是number of split是三个?再就是三啊。怎么算的啊?切片数就是三,那看一下这个结果对不对。结果呢,在这儿。一样的哈,啊一样的。那这个呢,就是这个combine test mode,那刚才呢只是证明这个机制,那现在呢,我们在实际的使用开发中,我们一般会将它切片个数,那它最好是一个这么多小文件,我想它合并成一个,那怎么办呢?你把这个最大值给它调高,哎,我这是调多大呢?20兆。当然你可以调成128行啊,这个是比较合理的。因为一个map test运行这个128兆的数据啊。
05:08
这个是成二张。那20兆的话,那你再看一下这个之前这个运营机制啊。你这里面分了,那就不用这么分了啊。都加一起是不是都小样啊。啊,都加一起都小样的,那他就会把这四个文件打包成认为是一个。那就是一个截片呗。也行。做完之后看一下number of please就变成了一。所以说呢,这个呢,是调整这个切片的这个大小啊。非常重要啊,这呢就是未来你要遇到这种特别多的小事件,像我这种1.7,五点几到3.4 6.8等等,记得要把他们先合并起来,变成比如说120。
06:10
八兆啊,这个统一处理,就一个切片,通通把这些小文件去搞定。啊,这是非常省事的啊。
我来说两句