00:00
好了,同学们,我们接下来来讲一下,咱们这个叫双value类型,双值类型啊,那什么叫双值类型啊,说的简单点其实是什么诶,就是我们两个数据源,它的数据之间的关联操作啊,咱们称之为叫做双子类型啊,那这个里面呢,其实就涉及到我们的交集并集了啊,这是我们的intersection啊,我们的交集这个下面呢,有一个叫union啊,这是我们的一个并集啊,这是我们的一个subtract,我们叫做差,所以啊,他们之间有交并差对不对,那后面呢,还有拉链啊,后面呢还有一些其的,所以呢,我们把这个呢,咱们来看一看,嗯,这个我们就不单独去写了啊,所以我们呢一块儿了,因为比较简单嘛,因为咱们盖LA当中我们学过类似的操作,所以呢,我这里写上一个,我们叫幺三啊幺三,然后把这个去掉,嗯。点击OKOK放过来啊,然后呢,接下来把这些东西呢,我们都去掉啊,这个地方我们就去掉了啊,咱们写上叫做双。
01:00
Value啊,咱们的类型数据的操作,这里呢,我们需要准备两个RD,两个RD,然后呢,我们说是交集,并集,差集,那所以123啊,咱们的123,我们的四,然后再再来我们把这个去掉啊,我们写成3456,嗯,好了,然后呢,我们写上一个二啊,写上一个二,那这里呢,我们来看一看,我们写上第一个啊,咱们叫做什么呢?咱们叫做交集啊,咱们叫交集,还有一个我们叫做并集,还有一个我们叫做差集啊是这样的,还有一个我们叫做拉链啊,咱们叫做拉链,嗯。好了,那我现在呢干嘛呢,我们这里呢,交集啊,其实咱们大家看看看啊,我们先给大家画个图啊,这个图形当中我们先理解一下,呃,那这里首先第一个先画一个圆圈啊,先画一个圆圈,然后拿过来啊反过来,然后颜色呢,给它标识上一个红色,嗯,然后呢,再来复制,复制以后放这边,然后呢,给它一个我们的绿色吧,啊然后呢,我中间给它稍微模糊一下是吧,模一下,那这样的话,我们可以看到中间是会有重合的部分,对不对,诶我这个地方我试试啊,我用一个黄色试试啊嗯。
02:13
看看中间会变色吗?我这个我确认一下这个黄色是不是有蓝色呀。哎,我这个还真没注意过是吧,行吧,不管它吧,那本来我是想那个看看这个调色板的感觉是吧?嗯,不管它,同学们,那好,那我现在呢,咱们来写,比方说这样写上一个一啊,写上一个一,然后呢,我再写上个二,对不对,嗯,好,那么然后呢,还有三和四,那么三和四呢,因为我们左边黄色的这个圆圈里面这个集合当中啊,它是有我们的三的,然后呢,我们再来一个四,嗯,好了,放到这边,那么可是呢,这个三和四呢,在绿色的圆圈当中它也有,所以咱们就画到中间的部分了啊,然后把这个拿过来,那么这边就是一个五和一个六了是吧,嗯,好,所以呢,大家可以看到我们现在呢,就是这个样子啊。
03:02
那么接下来我们的这边,首先交集,交集就是两个数据源之间交叉的部分,我们就叫做交集,那么黄色和绿色它交叉的部分不就是我们的这一块嘛,那不就是三和四嘛,对不对,那么所以啊,咱们这就来了啊,咱们叫RDD1,然后呢,点我们叫做intersection,嗯,然后呢,把RDD我们放过来,点一下VAR回车,回车以后那这边我们写成RDD3,嗯,那行,我们这里呢,不说别的,先把这个RDD3我们DR,咱们叫collect,然后呢,我们再来DR啊,咱们的for it,诶,嗯,我想想别for it了,咱们直接make string,给他个逗号,然后打印一下得了,嗯。好了,这是我们的交集啊,咱们一会儿演示一下,嗯,接下来是并集,那并集就是合并的意思啊,那么合并呢,就是黄色的圆圈和绿色的圆圈,它们合并在一起,那么1256它都要有,而且这个三和四呀,它要同时存在,记住啊,我这个画图的时候是为了告诉你这个三和四是重叠的,但是如果是并集的话,它应该填这个概念,同学们看能不能明白,就是意味着我们的这个三和四它其实是有两份的,对不对,为什么呢?因为黄色一份,绿色一份吧,所以呢,他们应该合并之后是八条数据啊,为什么是八条呢?首先就是因为它有一个合并的概念,第二个是什么呢?我们准备的数据啊,它是一个集合,但如果是个set的话,大家想一想,那其实你会发现是不是就有点问题了,因为如果是set的话,它就不能有重复的对不对,所以三和四啊,可能就会出现一分,这个咱不管它啊,咱们就了解这个概念就可以了啊好,那么我们说一下咱们叫做什么呢?叫RDD一点我们叫做。
04:48
Ion啊,咱们叫做union,那么这个union呢,是RDDR就是这个东西好点一下VR回车,咱们叫RDD4行了,那我们现在拷贝吧,嗯,拿过来,拿过来以后这个是RDD4啊,那我刚才说过了,咱们这里预想的结果呢,是我们的三和四啊,那这个我们的并集啊,咱们预想的结果呢,是什么呢?我们写上123啊,然后呢,三四,然后三啊,咱们叫做什么呢?三啊456好了,嗯,接下来呢,是我们的差级,那么这个差级稍微的比较特殊一些,为什么呢?因为啊,你要看看你站在谁的角度来做这个事情,如果你站在黄色的这个圆圈的角度来讲的话,那么所谓的差级呢,是把它交叉的,或者说重复的去掉,剩余的就叫差级,那么我们黄色的去掉重复的三和四,那不就剩下一和二了吗。但是如果你站在绿色。
05:48
的圆圈的角度来讲的话,那么我们的五和六它是差集对不对,为什么呢?三和四是重复的,要把三和四删掉对不对,所以啊,咱们的这个地方的差集,咱们来RDD点,咱们叫subject,嗯。
06:04
好,RDDR,然后点一下VAR回车,我们叫RDD5啊,OK,然后把这个呢,我们拿过来,嗯,拿过来以后,那这个时候呢,我们的RDD5就翻过来了,咱们的预想结果是什么呢?咱们的预想结果呢,就是站在RDD1的角度啊,那么我们把重合的去掉,就剩下一和二,哎,就是这个意思啊好,这是我们的交集,并集,差集,那还有呢,我们这个叫拉链啊,这个叫拉链一样的道理啊,同学们一样的道理,我们现在的这个地方,大家可以看到是我们的两个数据源,而且他们的数据是相同的,那我就可以干嘛呢?将相同位置的数据怎么办?同学们,诶,给它拉在一块儿对不对?同学们,诶,就是这样啊,所以这个在史该LA集合当中就有这种拉链的这种操作啊,我相信大家如果该LA没问题的话,这一块应该是好理解的,所以我们RDD啊,咱们点叫jep,嗯,好。
07:05
好,然后呢RDDR,然后点一下叫VAR回车,回车以后这里面我们写上叫RDD6,嗯,好了,然后呢,我们拷贝一下。拷贝以后放过来,我们叫RDD6,那么按我们预想的结果应该是什么样子呢?我们预想的结果呢,是应该是一和三在一块,二和43546啊,所以呢,我们写上一三啊,然后一杠三吧,嗯,然后呢二杠四,然后呢,我们的三杠五,然后嗯四杠六啊。好,然后呢,这个地方来。嗯,行了,那我们现在呢试一试啊,给大家看一看这个效果是什么样子的运行。好了,大家可以看到,现在呢,我们的结果已经出来了,跟咱们预想的应该是相同的吧,对不对,三和四,12343456,还有一和二没问题吧,然后后面呢,是一和三,他们是个啊,咱们这就是意思意思243546没问题啊,咱们之前呢,学过类似的操作,这块应该是好理解的啊。
我来说两句