专栏首页BigData_Flink判断flatmap、reduceByKey、GroupByKey算子的宽窄

判断flatmap、reduceByKey、GroupByKey算子的宽窄

A1 思路

  1. 添加分区参数看是否报错
  2. 看源码参数是否有与分区相关的

A2 具体

flatmap(窄):

reduceByKey(宽):

GroupByKey(宽):

A3 问题

宽窄依赖影响的是什么?

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • spark中如何判断算子宽窄?

    CoreDao
  • Spark Core快速入门系列(6) | RDD的依赖关系

      RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录R...

    不温卜火
  • 原 荐 Spark框架核心概念

    云飞扬
  • Spark Core——RDD何以替代Hadoop MapReduce?

    继续前期依次推文PySpark入门和SQL DataFrame简介的基础上,今日对Spark中最重要的一个概念——RDD进行介绍。虽然在Spark中,基于RDD...

    luanhz
  • 不可不知的spark shuffle

    一个spark的RDD有一组固定的分区组成,每个分区有一系列的记录组成。对于由窄依赖变换(例如map和filter)返回的RDD,会延续父RDD的分区信息,以p...

    Spark学习技巧
  • spark RDD 结构最详解

    一种简单的解释RDD是横向多分区的(这个数据集包括许多接口),纵向当计算过程中内存不足可刷写到磁盘等外存上,可与外存进行灵活的数据交换。

    黑白格
  • 大数据面试杀招——Spark高频考点,必知必会!

    前面两篇文章分别为大家介绍了大数据面试杀招 关于Hive 与 Hadoop 的内容,收到读者朋友们一致的好评和赞赏。嘿嘿,本篇文章我们就继续来研...

    大数据梦想家
  • Spark底层原理详细解析(深度好文,建议收藏)

    Apache Spark是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spa...

    五分钟学大数据
  • Spark底层执行原理详细解析(深度好文,建议收藏)

    Apache Spark是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spa...

    五分钟学大数据

扫码关注云+社区

领取腾讯云代金券