开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >Spark学习笔记

Spark学习笔记

原创

作者头像

Debug的香蕉

修改于 2020-12-10 10:30:01

修改于 2020-12-10 10:30:01

3650

举报

文章被收录于专栏：Spark源码笔记Spark源码笔记

RDD依赖什么是依赖关系通过构建依赖可以实现RDD容错子RDD依赖于父RDD 为什么需要依赖因为Spark基于RDD进行并行计算 RDD不可变可分区可进并行计算的集合通过划分在宽依赖和窄依赖可以在窄依赖的过程中可以实现RDD分区的并行计算但是宽依赖部分需要从上一个RDD的不同分区拉取数据，在shuffle阶段无法实行并行计算依赖关系种类窄依赖：NarrowDependency 宽依赖：ShuffleDependency 如何判断宽窄？通过一个父RDD跟一个子RDD对应，窄依赖通过一个父RDD跟多个子RDD对应，宽依赖 Spark设计依赖关系目的为了能够SPark并行计算划分Stage的依据为了构建血缘关系进行容错

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

评论

登录后参与评论

0 条评论

热度

最新