温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,同学们,我们接下来呢,再给大家介绍一个无状态数据操作当中的join,咱们叫做连接对吧?那这个join呢,比较特殊啊,像咱们之前呢,给大家讲RDD的时候也有这种join,对不对,它是两个数据做我们的连接,相同的会把V连接在一起,那咱们这也差不多,为什么呢?它其实啊是通过两个不同的数据流,将相同的K的数据给它连接在一起,是这样的一种感觉啊来这里呢,我们把这个关掉啊,关掉然后呢,我们来拷贝,拷贝以后呢,还是我们的零六啊,咱们给他一个,我们叫join,诶咱们叫做join啊来好了,放过来啊,放过来以后,那这个下面的代码呢,我们全都不要了,那么这里呢,来我们写上叫做lines啊嗯,我看看两个数据,那这样的吧,我们写一个date是吧,啊,咱们叫DATE999啊来,然后呢,我们再来一个,咱们这写上一个DATE888,就是把我们的这个两个数据流呢,诶给他拿过来啊好了。
01:00
然后呢,写完之后,接下来咱们放过来啊,咱们写上咱们叫DATE999,然后点一下咱们这里呢,给他一个map啊,咱们叫map,然后呢,我们写上叫做括号啊,咱们的这个下划线逗号一好,然后呢,写上一个啊,咱们叫做map,咱们就叫做999,把这个放过来啊,咱们叫9999,好,再来一个,咱们就是四个八了。把这个放过来,把它放过来行了,那这个时候呢,我们就想办法干嘛呢,把他们的这个来,我们点我们的join,这个join呢,我们就把这个我们的map的888,诶他们拿过来啊拿过来以后呢,点一下叫VR回车,回车以后你会发现相同的K,它会把两个V关联在一起,这个为了区分开,我这写上一个,诶这写个九好不好。然后这写个八好不好,反正就是演嘛,对不对,那这个呢,就是我们join的那个DS,然后呢,在这里呢,我们写上join DS DR我们的好了,但是这个三秒钟时间有点太,怎么说呢,太短了吧,万一我们的数据不好操作呢,所以给个五秒钟好不好,同学们好,那我们现在呢,给大家演示一下,那这个时候呢,我们先停一下啊,来我们先给它来启动,记住现在是四个九,我们再打开一个CMD啊,然后来我们在这边。
02:21
然后呢,写上我们叫NC,然后呢杠LP,然后写上四个八。啊,咱们四个八好回车,回车的话,两个我们的端口都已经开,可以开始提供服务了,那现在呢,我们就准备取什么呢?诶把它启动一下,那好,我现在呢运行啊运行。运行以后看结果啊,来看结果。好,那我们现在呢,来看一看啊,现在已经开始了,开始以后咱们就给大家演示演示啊,来aaaa好,然后这边写上一个我们的AAA好,嗯,连接完成以后,咱们稍微的等一下,大家有没有发现我们的A就被连接在一起了,对不对啊,你看就是这样的啊,所以它里面会有很多的这个内容啊,会有很多的内容啊OK,咱们再往下你会发现呢,其实很多九和八不就出来了吗?诶,那这个join呢,它的底层是什么样子呢?所以我们点一下,点点完以后大家会发现它就叫做我们的join,咱们再点,点完之后大家看怎么了,你会发现什么东西叫RDD.rddr。
03:24
有没有发现其实它就是我们的什么,是不是就是我们RDD的join呢?你把这个搞明白,我觉得别的没问题了啊,所以来咱们说一下,来所谓的这个DS啊,咱们叫stream啊,它的一个join操作啊,它的一个join操作,它其实啊就是。我们的两个RDB的join。啊,这个东西咱们搞明白了,那还说啥呢,对不对,哎,OK,那就说到这儿了啊。
我来说两句