专栏首页Spark学习技巧理解Spark里的闭包

理解Spark里的闭包

闭包的概念如下图:

在spark应用里,变量及函数的作用范围和声明周期在spark的集群运行模式下是比较难理解的,尤其是对初学者来说。RDD的操作,要修改其作用范围的变量,经常会出点叉子。下面,可以举个用foreach,修改一个计数器的例子。

例子

求和RDD元素的例子,该例子会根据该段代码是否执行在同一个jvm里面有不同的输出结果,比如local模式,运行于同一个jvm,输出是15;cluster模式运行于不同jvm输出是0。

val data = Array(1, 2, 3, 4, 5)

var counter = 0

var rdd = sc.parallelize(data)

// Wrong: Don't do this!!

rdd.foreach(x => counter += x)

println("Counter value: " + counter)

本地或集群模式

上述代码的行为是未定义的,并且不同模式下运行情况不同。为了执行作业,Spark将RDD操作的处理分解为tasks,每个task由Executor执行。在执行之前,Spark会计算task的闭包。闭包是Executor在RDD上进行计算的时候必须可见的那些变量和方法(在这种情况下是foreach())。闭包会被序列化并发送给每个Executor。

发送给每个Executor的闭包中的变量是副本,因此,当foreach函数内引用计数器时,它不再是driver节点上的计数器。driver节点的内存中仍有一个计数器,但该变量是Executor不可见的!执行者只能看到序列化闭包的副本。因此,计数器的最终值仍然为零,因为计数器上的所有操作都引用了序列化闭包内的值。

在本地模式下,在某些情况下,该foreach函数实际上将在与driver相同的JVM内执行,并且会引用相同的原始计数器,并可能实际更新它。

为了确保在这些场景中明确定义的行为,应该使用一个Accumulator。Spark中的累加器专门用于提供一种机制,用于在集群中的工作节点之间执行拆分时安全地更新变量。

一般来说,closures - constructs像循环或本地定义的方法,不应该被用来改变一些全局状态。Spark并没有定义或保证从闭包外引用的对象的改变行为。这样做的一些代码可以在本地模式下工作,但这只是偶然,并且这种代码在分布式模式下的行为不会像你想的那样。如果需要某些全局聚合,请改用累加器。

打印RDD的元素

另一个常见的习惯用法是尝试使用rdd.foreach(println)或rdd.map(println)打印出RDD的元素。在单台机器上,这将产生预期的输出并打印所有RDD的元素。但是,在cluster模式下,由Executor执行输出写入的是Executor的stdout,而不是driver上的那个stdout,所以driver的stdout不会显示这些!要在driver中打印所有元素,可以使用该collect()方法首先将RDD数据带到driver节点:rdd.collect().foreach(println)。但这可能会导致driver程序内存不足,因为collect()会将整个RDD数据提取到driver端; 如果您只需要打印RDD的一些元素,则更安全的方法是使用take():rdd.take(100).foreach(println)。

本文分享自微信公众号 - Spark学习技巧(bigdatatip)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-06-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 扩展RDD API三部曲之第二部自定义操作算子

    讲到自定义RDD的action操作,大家首先应该想到的就是那些RDD到key-value算子的隐式转换,具体一点也就是PairRDDFunctions这个类里包...

    Spark学习技巧
  • 为啥spark 的broadcast要用单例模式

    很多用Spark Streaming 的朋友应该使用过broadcast,大多数情况下广播变量都是以单例模式声明的有没有粉丝想过为什么?浪尖在这里帮大家分析一下...

    Spark学习技巧
  • 基于Spark Mllib的文本分类

    基于Spark Mllib的文本分类 文本分类是一个典型的机器学习问题,其主要目标是通过对已有语料库文本数据训练得到分类模型,进而对新文本进行类别标签的预测。这...

    Spark学习技巧
  • 要实现工业4.0?先看看你的交换机答不答应

    一、迈向工业4.0 的第一步 近年来,随着工业4.0概念的火热以及“中国制造2025”行动纲领的提出,越来越多的厂商加入到新产品以及新技术开发的潮流中。也因为理...

    钱塘数据
  • 微信全文搜索优化之路

    本文以移动平台广泛采用的SQLite FTS Extension为例, 重点讲述微信在FTS上的一些性能优化经验。

    微信终端开发团队
  • 微信手机端的本地数据全文检索优化之路

    基于本地数据的全文搜索(Full-Text-Search,FTS)在移动应用上扮演着重要的角色。与基于服务端提供的搜索服务不同,移动端受硬件条件限制,尤其在数据...

    JackJiang
  • 构建 docker 镜像

    通过 Dockerfile 可以快速构建镜像,而通过 commit 生成镜像可以解决应用在部署过程中有大量交互内容以及难以通过 Dockerfile 构建的问题...

    chenjingwei
  • iOS中的蓝牙开发以及对iOS中设计模式的进一步理解(47,48,49,50周总结)

    忙完IOMix,还在研究iOS的音频框架,老板突然就说要先做蓝牙相关的项目了。于是就开始了第一次开发iOS蓝牙应用。两周时间,厘清了很多之前模糊的地方。

    iOS Development
  • 使用Oracle Wrap工具加密你的代码

    Last Updated: Monday, 2004-11-15 22:31 Eygle

    数据和云01
  • CLR、程序集、反射和控制反转

        以前面试包括自己学习的时候经常会碰到这3个东西,也查过相关介绍,晦涩难懂,虽然看完之后,当时勉强理解,不过过一段时间又忘了。其实这篇文章可以分两篇(cl...

    yaphetsfang

扫码关注云+社区

领取腾讯云代金券