00:00
简单的介绍了一下咱们的group方法的使用啊,但是有的同学会误会说,老师啊,是不是我分组之后,比方说有两个分区,那我分两个组的话,是不是这两个组就在不同的分区当中啊,记住啊,这个地方不一定咱们来说一下,比方说咱们举个例子,刚才说过了,这有两个分区,然后呢,这边是有两个分组嘛,大写的H和大写的S,那是不是我们的H和S就分在两个分区里面呢?其实这个没有必然的关系啊,没有必然关系,所以我们说一下,我们的分组和我们的分区它没有必然的关系。为什么这么说呢?咱们举个例子,那我极限情况下的话,大家想想,我们写上一个H,那是不是所有的数据就放在了一个我们组当中啊?那么好,那你这样的话是不是就放在一个分区当中了,那你这两个分区,另外一个分区怎么办?不就空下来了嘛,所以啊,这个其实分区和分组没有必然的关系啊,也就是说你写的S和我们的这个S,它只是来什么进行分组,那么你分组和分区呢,到底怎么放,它底层是有逻辑的,这个咱们后面会讲啊,但是他没有必然的关系,说啊,这个S必须放在什么,哪一个分区当中,这个S必须放在哪个分区当中,这个是没有的啊,所以呢,这个呢,我们需要清楚啊,那好,那么我们现在呢,再给大家说一个跟分区相关的一个内容,咱们一块来。
01:25
咱们现在呢,往下来,往下以后我在咱们的这个位置啊,来把它拿过来,嗯,好,拿过来以后这个是什么呢?这个是我们的RDD,然后呢,它里面呢,有我们的分区啊,所以呢,我们这个呢,拷贝一下,拷贝以后我拿过来这是一个分区,然后呢,这是一个分区。然后呢,我们里面呢,给他写数据啊,比方说我们写上一个A吧,嗯,然后写上一个我们的A,我写我觉得写A不可能不合适,写个一吧,嗯,写个一,然后把这个呢,我们拉大一些啊,放到这儿来,然后呢,把这个拿过来,我们写上一个二好不好,同学们,然后呢,这个呢往上啊往上OK,然后写上一个我们的三和四,那我这边写上一个三啊和我们的这个四。
02:10
那RD呢,我现在干嘛呢?想做一个分组操作,那么分组操作的话,我这边给它一个红色的,然后呢,默认情况下分区不变,为什么呢?因为我们默认情况下,这个分区的数量是没有发生改变呢,你之前是两个分区,我现在依然是两个分区,这是没有问题的,好了,那么这个时候啊,问题就来了,什么问题呢?我们现在如果分组的话,比方说我奇数放一块,我偶数放一块。那么同学们想一想。那么你的一在这儿,你要是和三它们两个是两个不同的分区,对不对。但是我们说了要放在一起啊,那么你放在一起的话,是不是就意味着你的1A它是有可能走到这个分区的,但是你的三也要放在这个里面,对吗?同学们想想是不是这样的,为什么呢?因为你的分组嘛,那分组的话,相同的规则的数据就放在一块儿了,那所以我们的基数,我们的三诶不就放过来了吗?
03:14
所以啊,它就放过来了,放过来以后呢,我们的来三我们就放到这儿了。那同样道理呀,那我们现在的这个地方有一个二和四,那么我的四保持不变,它可能呢,就走到了这个我们的分区当中,是不是这样的同学们,OK,那么你的二和四都是偶数,那么偶数要放在一块儿,那是不是意味着我们的箭头它就应该走到这个位置呢?那么好,我的二应该放到这儿啊,好,然后呢,我们的四诶放到这儿,所以啊,同学们就会发现一个现象,什么现象呢?我们的数据其实它被打乱了啊,就是一和二本身在以前的一个分区当中,但是你会发现现在是不是跑到了不同的分区当中,所以啊,咱们这里呢,稍微的描述一下这个现象啊,再描述一下来,嗯。
04:07
咱们写上就是我们的group啊,它会什么呢?会将我们的数据咱们叫打乱,这个打乱其实就打散的意思啊,就是我们老说打散打散嘛,把数据打散就这意思啊,把它打乱,那么你打乱以后有个另外一个问题什么呢?它需要重新组合对吗?什么意思啊,你的这个一要和三诶放在一块儿,这是不是重新组合在一块儿了,诶二和四要重新组合在一块儿,所以它不光将数据打乱啊,还干嘛呢?我们说重新组合。那这个操作呀,就比较特殊,所以我们有一个特定的名词啊,来这个操作我们称之为叫做杀否。诶,提到这个沙,我相信大家应该感觉比较熟悉,因为你们之前听过类似的这种概念,对不对啊,我们在海多当中也有这个沙的概念,咱们叫洗盘,它就是将我们的数据打乱重新组合,对不对?诶就是这样啊,所以我们的分区数量是没有发生改变的,但是呢,我们的这个什么诶,数据被打乱重新组合了,这个我们先事先的提一下啊,大家有一个认识,我们后面呢,会详细的来讲这个杀Le的问题啊呃,回到课件当中,他就告诉你了,说。
05:23
将咱们的数据源的数据根据指定的规则进行分组,分区默认不变,但是数据会被打乱,重新组合,我们将这样的操作称之为叫做sale,极限情况下数据可能被分在同一个分区当中,对不对?那当然了,你说这个规则一样的话,不就放在一个分区当中了吗?啊啊,一个组的数据在一个分区当中,但是并不是说每一个分区中只有一个组啊,你的多个组放在一个分区里面是可以的,所以他们两个没有什么必然的关系啊,这个不要误会好不好,同学们。好了,这个呢,我们就说到这里啊。
我来说两句