温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下18课RDD的宽依赖关系。RDD是18课中最重要的数据模型,因中文含义是弹性分布式数据集,因RDD由分区组成,每个分区被不同的18个重叠点worker处理,从而支持分布式计算。这里的绿色方框表示分区,红色方框表示RDDRDD之间具有依赖关系,分别是在依赖关系和宽依赖关系。这里重点讨论RDD的宽依赖关系,它是指如果负RDD的每个分区同时被指RDD的多个分区使用,那么这两个RDD就是宽依赖关系。了解到了基本定义以后,下面来看几个典型的宽依赖操作。孤分组操作是典型的宽依赖操作,这里的负RDD中包含三个分区,针对负RDD行孤败分组操作,生成一个子RDD,子RDD包含两个分区,通过观察发现负RDD的每个分区同时被子RDD的这2。
01:00
同分区使用,因此这个负RDD和子RDD就是宽依赖关系。再来讨论一下join问操作,该操作相当于执行一个多表连接,这里有两个负RDD负DD1和负RDD2,每个负RDD包含两个分区执行join按操作生成一个子RDD,通过观察发现负RDD的每个分区同时被子RDD的三个分区使用,因此这里两个负RDD和子RDD就是宽依赖关系。注意,Join操作比较特殊,有些情况下的join操作是在依赖关系。我们将会在后续课程中为大家做进一步介绍。现在你已经知道什么是18课RDD的快依赖关系了,那你知道什么是18课RDD的在依赖关系吗?欢迎评论区留言讨论好了,记得点加号关注赵玉强老师。
我来说两句