首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >第4天:核心概念之广播与累加器

第4天:核心概念之广播与累加器

作者头像
会呼吸的Coder
发布2021-03-16 10:22:43
5330
发布2021-03-16 10:22:43
举报
文章被收录于专栏:会呼吸的Coder会呼吸的Coder
对于并行处理,Apache Spark可以使用共享变量。
即当驱动程序将任务发送到集群后,共享变量的副本将在集群的每个节点上运行,以便可以将该变量应用于节点中执行的任务。
今天将要学习的就是Apache Spark支持的两种类型的共享变量:广播与累加器。

广播

广播类型变量用于跨所有节点保存数据副本。此变量缓存在所有Spark节点的机器上,而不仅仅是在执行任务的节点上保存。以下示例代码是PySpark中广播类的结构:

class pyspark.Broadcast (
   sc = None, 
   value = None, 
   pickle_registry = None, 
   path = None
)

如下代码是一个广播类型的变量使用示例。这个广播类型的对象有一个value属性,通过value属性我们可以获取到广播对象中存储的值。

words_new = sc.broadcast(["scala", "java", "hadoop", "spark", "akka"]) 
data = words_new.value
print "Stored data -> %s" % (data) 
elem = words_new.value[2] 
print "Printing a particular element in RDD -> %s" % (elem)

累加器

累加器变量主要用于统计操作记录数据。例如,我们可以在MapReduce中利用累加器进行求和或计数。 一个累加器的数据结构如下所示:

class pyspark.Accumulator(aid, value, accum_param)

如下的示例中显示了如何使用累加器变量。累加器变量与广播变量类似,同样可以通过value属性来查询数据,但是仅仅能在驱动程序中调用。在下面的例子中,我们将一个累计器用于多个工作节点并返回一个累加值。

num = sc.accumulator(10) 
def f(x): 
   global num
   num+=x
rdd = sc.parallelize([20,30,40,50]) 
rdd.foreach(f) 
final = num.value
print "Accumulated value is -> %i" % (final)
# Accumulated value is -> 150
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-03-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 初级程序员 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 对于并行处理,Apache Spark可以使用共享变量。
  • 即当驱动程序将任务发送到集群后,共享变量的副本将在集群的每个节点上运行,以便可以将该变量应用于节点中执行的任务。
  • 今天将要学习的就是Apache Spark支持的两种类型的共享变量:广播与累加器。
  • 广播
  • 累加器
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档