00:00
好,接下来呢,我们讲这个join的多种应用,这里面分了这个reduce和map join,呃,可以这么说,在开发当中你不可能。不写。啊,为什么这么说呢?因为在企业开发中有。各种各样的业务。做各种表啊。包括你的订单表啊,你的这个用户表啊,产品表。等等一系列表,那这些表之间,哎,需要一个招音货币,那招引对大家来说应该很熟吧,是数都很对啊。都到了大师级别的嘛。信手拈来。啊,如果达不到这种程度。后面就练吧啊。据说有几个三个网站啊。天天每天练十个20个蛇口啊。前还有这个大车口吗?补充了吗?1000行的车口支。你们得练三个。现在开始练到毕业。
01:00
就一定要熟哈,非常之重要啊。你这个能OK25K,妥妥的,真的是妥妥的,你只要写的六行。然后再加上一些正常的一些算法。好,那下面往下看啊,这个reduce噪音的一个工作原理,如何来实现在reduce端对两个表啊,或者多张表的一个合并啊。首先呢是卖不端,他要干什么事,比是在你就噪音要实现它。来自未来自不同表或文件的PY对。打标签以区别。不同来源的记录。打标签能知道啥意思吗?记住哪个标记啊,哎,告诉这个是哪张表来的,是A张表来的啊,另一个呢是B张表来的数据,那个呢是C张表来的数据,是这意思,因为我们这里面呢是,哎,我可以读不同的多张表进来。通过map阶段。这个麦鸡蛋呢,这里面有啊。
02:01
a.TT这两边。b.T。有c.TT通通的都会进入到这个Mac计算里面去。但是呢,我们这边有个方法啊,我们有个方法可以获取到这个数据是来源于A表B表还是C表,这是可以的,根据什么呢。万能的。只要拿到切片信息,我就能拿到这个数据是来源于哪呢?那来哪之后,哎,我就可以对他进行打标签,你是A来的还是B来的,谁来的?然后干什么呢?然后用连接字段作为K,其余部分和新加的标记作为value。那这个连接支段指的是什么呢?你是不是要对这个表进行招引呢?那招验是不是就得有公共的这个字段呢?按照哪一个字段去招验码?按照哪一个字段去招引,就将谁设置成K。想想啊,哪一个。字段相同,比如说ID相同。
03:02
比如说哈。ID像头,那这里面有ID,这里面也有ID,这里面也有ID。那我就把ID抽出来,那剩下的值放在一起。那最终他是IDK。是不是相同的K都能传到一个radio的方法?我是不是只有相同的K才能最终进入到这定数?那我就把它拿出来,那剩下的值,不管你是什么值,我都给你打上标签啊,我都给你打上标记,你是A的,B的,C的。那我不来和,谁来和的?水就是鸡蛋来喝呀。我只需要把你相同的key传到这个radio方法里面去就OK了。那在radio阶段干什么呢?在radio端以连接字段作为key。分组完成。啊,只要它K相同,它就能进入到流里面去啊,哎,我们只需要在每一个分组当中,将那些来源于不同文件的记录在外部阶段已经打好标签的分开就行了。
04:03
啊,分开之后,最后进行合并。比如说最终的合并操作是在阶段,只不过呢,在这个map阶段的前期准备呢,需要对来源于不同的文件进行一个打标签。那这里面稍微要注意一下什么呢?以什么为P?一定是以这个连接字段。这样他才能进入到。一个人就把他连去。才能进行,根据这个P进行。这是原理啊,可能比较枯燥,那下面呢,我们来看一下这个具体的案例实操。
我来说两句