Apache Spark:为什么不能使用在全局对象中定义的广播变量

Apache Spark是一个开源的大数据处理框架，它提供了高效的数据处理和分析能力。在Spark中，广播变量是一种用于在集群中共享数据的机制。广播变量可以在每个节点上缓存一份数据，并且可以在任务执行期间被多次使用，从而减少数据的传输和复制开销。

然而，广播变量不能使用在全局对象中定义的原因是因为全局对象在Spark集群中的每个节点上都会被复制一份。而广播变量的目的是为了减少数据的传输和复制开销，因此在全局对象中定义的广播变量会导致数据的冗余复制，降低了Spark的性能和效率。

为了解决这个问题，可以将广播变量定义在任务函数内部，或者使用闭包将广播变量传递给任务函数。这样可以确保广播变量只在任务执行期间被使用，而不会在全局对象中被复制。

总结起来，不能在全局对象中定义广播变量是为了避免数据的冗余复制，保证Spark的性能和效率。在使用广播变量时，应该将其定义在任务函数内部或使用闭包传递给任务函数。

Apache Spark:为什么不能使用在全局对象中定义的广播变量

scala、apache-spark

这里有一个简单的例子来表达我的担忧。此示例包含3个文件和3个对象，具体取决于spark 1.6.1。//file globalObject.scala varimport org.apache.spark.rdd.RDD def go(rdd:

浏览 39提问于2016-08-13得票数 2

2回答

如何使用Spark广播函数

apache-spark

Spark提供了一个函数broadcast来指示数据集足够小并且应该被广播。ResolvedHint(df.logicalPlan, HintInfo(broadcast = true)))(df.exprEnc)我知道我可以用以下方法：val b = spark.range(100).as("b") val df = a.join(broadcast(b)).where($"a.id" =

浏览 1提问于2018-02-27得票数 1

回答已采纳

2回答

局部机火花试验

scala、unit-testing、apache-spark

我使用sbt测试在Spark1.3.1上运行单元测试，而且单元测试非常慢，我一直遇到java.lang.ClassNotFoundException: org.apache.spark.storage.RDDBlockId尝试在一台新机器上安装所有的东西，包括新鲜的hadoop，新的ivy2，但是我仍然遇到同样的问题。任何帮助都是非常感谢的。= "org.slf4j"), ExclusionRule("org.spark

浏览 3提问于2015-07-07得票数 3

回答已采纳

1回答

org.apache.spark.util.SerializableConfiguration提供java.lang.ClassCastException:在从检查点恢复时不能强制转换java.lang.ClassCastException

apache-spark、serialization、spark-streaming、broadcast、checkpointing

我正面临一个火花流工作的问题，我试图使用广播，mapWithState和检查点在火花。以下为用法：我还需要将广播连接对象传递到mapWithState

浏览 5提问于2017-08-01得票数 3

2回答

如何在SparkContext类中使用getOrCreate()方法?我们通过该方法具体实现了什么功能

apache-spark

SparkContext Class中getOrCreate()方法的用途是什么，如何使用？为此，我没有找到任何合适的示例(编码方面)。我所理解的是，使用上面的方法，我可以在应用程序之间共享spark上下文。我们这里所说的应用程序是什么意思？应用程序是提交给spark集群的不同作业吗？如果是这样，那么我们应该能够使用在一个应用程序中注册的全局变量(广播)和临时表到

浏览 4提问于2017-06-06得票数 2

1回答

在Apache spark中跨执行器共享数据

java、apache-spark、apache-spark-dataset、apache-spark-2.0、apache-spark-2.3

我的SPARK项目(用Java编写)需要跨执行器访问(选择查询结果)不同的表。这个问题的一个解决方案是: 表非常大，因此创建大容量的Map并将其作为广播变量传递给执行

浏览 0提问于2018-12-18得票数 0

回答已采纳

1回答

来自局部函数的PySpark广播变量

python、apache-spark、pyspark

我正在尝试从Python方法中创建广播变量(尝试抽象一些我正在创建的依赖于分布式操作的实用程序方法)。但是，我似乎不能从Spark workers中访问广播变量。假设我有这样的设置： sc = SparkContext() someValuesc.parallelize().map

浏览 0提问于2014-11-17得票数 12

回答已采纳

1回答

火花scala运行

scala、apache-spark、apache-spark-mllib

嗨，我是新来的火花和斯卡拉。我正在星火scala提示符中运行scala代码。这个程序很好，它显示的是“定义模块MLlib”，但它没有在屏幕上打印任何东西。我做错了什么？有没有其他方法可以在shell中运行这个程序火花并获得输出？ import org.apache.spark.mllib.classification.Logi

浏览 5提问于2016-01-21得票数 4

回答已采纳

1回答

仅使用Spark时广播变量的使用

scala、apache-spark、apache-spark-sql

当使用spark时，我们可以使用广播变量来优化火花分配不变状态的方式。val broadcastVar = sc.broadcast("hello world") 返回的对象(Broadcast[String])不保留对实际对象("hello“)当从闭包中引用

浏览 0提问于2020-11-04得票数 3

回答已采纳

1回答

Scala广播+ UDF

scala、apache-spark

我正在尝试广播一个列表，并将广播变量传递给UDF (Scala代码位于单独的文件中)。但面对的是问题。= SC.broadcast(lookup_data) 使用3个参数创建UDF val Call_Sub_Pgm = udf(foo(_: String, Lookup_BroadCast: org.apache.spark.broadcast.Broadcast[List[String]], Trace: String)) 使用"withC

浏览 34提问于2020-06-22得票数 0

1回答

正确使用大型广播变量的提示？

python、apache-spark、pyspark、pickle、rdd

=1 pyspark --executor-memory 10G --driver-memory 5G --conf spark.driver.maxResultSize=5g 在RDD中，如果我坚持对这个广播变量的引用但是，我希望广播变量只被反序列化一次(并加载到执行器上的内存中)，随后对.value的引用将引用到内存中的地址。然而，情况似乎并非如此。我是不是遗漏了什么？我在<e

浏览 2提问于2016-05-26得票数 14

回答已采纳

1回答

激发RDD/DF作为类的变量成员。它会影响性能吗？

scala、performance、apache-spark、serialization

但是，这会导致每个分区的rddToTransform被序列化多次吗？ rddToTransform.complexTransformations2InvlovingAnotherRdd} 我可以给出一个广播变量的例子在这样的行动

浏览 0提问于2018-11-06得票数 0

回答已采纳

1回答

火花-使用离堆内存

apache-spark

当spark.memory.offheap.enabled=true时，Spark可以利用堆外内存进行洗牌和缓存(StorageLevel.OFF_HEAP)。堆外内存可以用来存储广播变量吗？多么?

浏览 2提问于2021-10-15得票数 3

回答已采纳

1回答

在映射过程中根据RDD中的时间戳计算每分钟的请求数

scala、apache-spark、spark-streaming、rdd

数据存储在Kafka主题中，在应用程序启动时，主题的整个内容都会被加载和处理-因此，据我所知，不可能使用spark streaming的任何窗口操作，因为所有数据都将同时到达。我得到了以下异常：有没有办法实现我想做的事？如果你需要更多的信息，请给我

浏览 0提问于2017-08-05得票数 1

2回答

为什么在scala中会出现flatten和collect_list错误？使用无法解析符号

scala、apache-spark

c0b4| 87|+---------+-----------+--------+ 我正在尝试实现一个按visitorID分组的数据帧12,87|+---------+---------------------+--------+ 我的代码： object flatten_data{

浏览 23提问于2019-02-21得票数 0

1回答

用SparkSession创建广播变量？火花2.0

scala、apache-spark、apache-spark-sql

是否可以使用sparkContext提供的SparkSession来创建广播变量？我一直在sc.broadcast下得到一个错误，但是在不同的项目中，当使用来自org.apache.spark.SparkContext的SparkContext时，我没有问题。import org.apache.spark.sql.SparkSession def main(args: Array[String]){

浏览 3提问于2016-12-15得票数 5

回答已采纳

2回答

pyspark广播变量是如何工作的

python、apache-spark

我知道它利用了pickle，跨节点传输数据，并保存在内存中，等等。我困惑的是为什么在pyspark中使用它的语法是有效的。sc.broadcast(someValue) element *= V.value 为什么上面的代码没有得到一个"V“没有定义的抱怨？我在pyspark中搜索了与广播</

浏览 0提问于2014-11-26得票数 5

1回答

广播‘对象’没有属性‘破坏’？

apache-spark、pyspark、apache-spark-1.6

在我的pyspark代码中，我声明了一个广播变量。最后，我想销毁这个变量，但是 br = sc.broadcast(my_value)br.destroy() 我的spark版本是1.6.1，而

浏览 1提问于2017-07-19得票数 0

回答已采纳

1回答

火花广播卡桑德拉连接器

cassandra、apache-spark、spark-cassandra-connector

我使用的是由datastax提供的火花卡桑德拉连接器1.1.0。我注意到了交互问题，我也不知道为什么会发生这样的事情:当我广播cassandra连接器并试图在执行器上使用它时，我正在接受异常，这意味着我的配置无效，不能在0.0.0连接到Cassandra。但是如果我不广播的话一切都很好。对我来说也奇怪的是，在驱动端播放的值打印正确的配置，但执行者侧没有。println(broadcastedCon

浏览 3提问于2015-07-18得票数 4

2回答

spark中sc.broadcast与广播函数的区别

scala、function、apache-spark、apache-spark-sql、broadcast

我还知道在Spark函数中有一个名为broadcast的函数。我应该用哪一个来广播参考/查表？

浏览 3提问于2016-10-29得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Apache Spark:为什么不能使用在全局对象中定义的广播变量

相关·内容

Apache Spark:为什么不能使用在全局对象中定义的广播变量

如何使用Spark广播函数

局部机火花试验

org.apache.spark.util.SerializableConfiguration提供java.lang.ClassCastException:在从检查点恢复时不能强制转换java.lang.ClassCastException

如何在SparkContext类中使用getOrCreate()方法?我们通过该方法具体实现了什么功能

在Apache spark中跨执行器共享数据

来自局部函数的PySpark广播变量

火花scala运行

仅使用Spark时广播变量的使用

Scala广播+ UDF

正确使用大型广播变量的提示？

激发RDD/DF作为类的变量成员。它会影响性能吗？

火花-使用离堆内存

在映射过程中根据RDD中的时间戳计算每分钟的请求数

为什么在scala中会出现flatten和collect_list错误？使用无法解析符号

用SparkSession创建广播变量？火花2.0

pyspark广播变量是如何工作的

广播‘对象’没有属性‘破坏’？

火花广播卡桑德拉连接器

spark中sc.broadcast与广播函数的区别

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐