专栏首页BigData_Flinkspark中如何判断算子宽窄?

spark中如何判断算子宽窄?

A1 方法:

一种方法:

看参数是否可以改变分区数

可以看源码中参数是否有与分区相关的,比如numPartitions

A2 例子:

sortBy和map比较:

  • sortBy最后有numPartitions,添加不报错
  • map后加上数字(表示分区数的)会报错

A3 解释

看sortBy和map源码:

A4 问题

判断flatmap、reduceByKey、GroupByKey算子的宽窄。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 判断flatmap、reduceByKey、GroupByKey算子的宽窄

    CoreDao
  • Spark学习笔记

    Debug的香蕉
  • Spark内部原理

    Spark中的Shuffle、宽依赖窄依赖、RDD持久化、共享变量

    俺也想起舞
  • Spark2.x学习笔记:11、RDD依赖关系与stage划分

    11、 RDD依赖关系与stage划分 Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的...

    程裕强
  • spark RDD 结构最详解

    一种简单的解释RDD是横向多分区的(这个数据集包括许多接口),纵向当计算过程中内存不足可刷写到磁盘等外存上,可与外存进行灵活的数据交换。

    黑白格
  • Spark Core源码精读计划19 | RDD的依赖与分区逻辑

    按照计划,本文来讲解RDD的依赖与分区器。这两者不仅与之后调度系统的细节(DAG、Shuffle等)息息相关,而且也是面试Spark系大数据研发工程师时经常被问...

    大数据真好玩
  • 分布式弹性数据集(下)

    文章概述:RDD的其他几个知识点,依赖关系(Dependencies)、检查点(Checkpoint)、存储级别(Storage Level)和迭代函数(Ite...

    kk大数据
  • Spark内核分析之DAGScheduler划分算法实现原理讲解(重要)

            接着上一篇,我们接着来分析下一个非常重要的组建DAGScheduler的运行原理是怎么实现的;通过之前对Spark的分析讲解,我们的Spark作...

    z小赵
  • Spark Core——RDD何以替代Hadoop MapReduce?

    继续前期依次推文PySpark入门和SQL DataFrame简介的基础上,今日对Spark中最重要的一个概念——RDD进行介绍。虽然在Spark中,基于RDD...

    luanhz

扫码关注云+社区

领取腾讯云代金券