使用Spark RDD处理对象的成员变量时，处理结果未保存，

可能是因为Spark RDD的操作是惰性求值的，只有在遇到行动操作时才会触发计算并保存结果。如果处理结果未保存，可能是因为缺少行动操作。

Spark RDD是弹性分布式数据集（Resilient Distributed Dataset）的简称，是Spark中最基本的数据抽象。它是一个可分区、可并行处理的数据集合，可以在集群中进行高效的并行计算。

在使用Spark RDD处理对象的成员变量时，需要注意以下几点：

RDD的转换操作（如map、filter、reduce等）并不会立即执行，而是记录下来以构建RDD的执行计划。只有当遇到行动操作（如collect、count、save等）时，才会触发实际的计算。
对象的成员变量在RDD的转换操作中是可以访问和使用的，但需要注意对象的序列化和反序列化。确保对象及其成员变量是可序列化的，以便在分布式环境中进行传输和处理。
如果处理结果未保存，可能是因为缺少行动操作。可以使用行动操作如collect、count、save等将处理结果保存到内存、磁盘或其他存储介质中。
如果需要对处理结果进行进一步的操作，可以将处理结果转换为新的RDD，并继续进行后续的转换和行动操作。

在云计算领域，Spark RDD可以广泛应用于大数据处理、机器学习、图计算等场景。腾讯云提供了适用于Spark的云服务产品，如Tencent Spark Cluster，可提供高性能的Spark集群环境，支持大规模数据处理和分布式计算。

更多关于腾讯云Spark相关产品和服务的信息，可以参考腾讯云官方网站：https://cloud.tencent.com/product/spark

使用Spark RDD处理对象的成员变量时，处理结果未保存，

println("***TEST map size is "+map.size);} addItem()是将(K，v)加到对象的成员变量“map”中。test()是从文件中读取行(每行是(k，v)对)到RDD，然后处理每一行以将相应的(k，v)添加到"map“。当调用test()时，我们可以看到addItem()一直被成功调用，“map”的大小不断增加。但是当执行最后一个"print()“

浏览 4提问于2017-03-13得票数 0

2回答

有必要在Spark中广播object成员吗？

、

假设我有一个对象，我需要对这个对象的成员arr进行一些操作。rdd.map(arr.contains(_)).saveAsTextFile...}val arrBr = sc.broadcast(arr)和在我看来，A对象是一个单

浏览 0提问于2019-03-26得票数 1

2回答

_pickle.PicklingError:未能序列化对象:异常:似乎您试图从广播变量、操作或转换引用SparkContext。SparkContext只能在驱动程序上使用，而不能在它在工作人员上运行的代码中使用。有关更多信息，请参见星星之火5063.。超级简单的示例应用程序尝试并行运行一些计算。我认为我没有嵌套RDD，但是关于不能在工作人员中使用sparkContext的部分是令人担忧的，因为我认为我需要它来实现

浏览 3提问于2020-07-20得票数 0

回答已采纳

1回答

火花ML管道api保存不工作

、、

在版本1.6中，管道api获得了一组新的特性来保存和加载管道阶段。在我训练了一个分类器之后，我尝试将一个阶段保存到磁盘上，然后再加载它以重用它，并节省计算的工作量，以重新建模。由于某些原因，当我保存模型时，目录只包含元数据目录。当我再次加载它时，我会得到以下异常：线程"main“中的异常: org.apache.spark.rdd.RDD$$anonfun$first$1.apply(

浏览 0提问于2016-01-11得票数 0

回答已采纳

0回答

Apache Ignite永远无法保存Spark上的值

、、、

我正在使用Apache Ignite和Spark来保存来自Spark的结果，然而，当我执行saveValues时，它需要很长时间，并且计算机的中央处理器和风扇速度变得疯狂。我有3 3GHz的CPU和16 GB的内存。我有一个RDD，我在其中映射最终的DataFrame： val visitsAggregatedRdd :RDD[VisitorsSchema] =

浏览 6提问于2017-06-12得票数 0

1回答

在Spark RDD操作中使用类方法返回任务不可序列化异常

、、

data.map(something(_, j))}val s = new SparkComputation(2, 5)val res = s.processRDD(data).collect 我假设异常的发生是因为Spark试图序列化为了防止这种情况发生，我将在RDD操作中使用的类成员存储在

浏览 1提问于2016-11-11得票数 0

2回答

Scala中的Spark RDD可以是var而不是val吗？

、、

我是Spark/Scala的新手。Scala中的Spark RDD可以是var而不是val吗？我正在尝试编写一个for循环来在每次迭代中更新RDD。如果我将它定义为val，那么它将是不可变的，所以我想知道是否使用var RDD来代替。

浏览 3提问于2016-03-11得票数 0

5回答

火花缓存与广播

、

看起来，广播方法在我的集群中创建了RDD的分布式副本。另一方面，cache()方法的执行只是在内存中加载数据。但是我不明白缓存的RDD是如何分布在集群中的。你能告诉我在什么情况下我应该使用rdd.cache()和rdd.broadcast()方法吗？

浏览 8提问于2016-06-27得票数 27

回答已采纳

1回答

正确使用大型广播变量的提示？

、、、、

对于一个100 MB变量的100次引用，即使它被复制了100次，我也希望数据使用总量不超过10 GB (更不用说3个节点上的30 GB了)。我在广播变量中看到的示例将它们作为字典，使用一次转换一组数据(即用机场名称替换机场缩写)。在这里持久化它们的动机是创建具有广播变量以及如何与其交互的知识的对象，持久化这些对象，并使用它们执行多个计算(火花负责

浏览 2提问于2016-05-26得票数 14

回答已采纳

3回答

RDD的缓存什么时候过期？

、

我们在RDD上使用.cache()对数据集进行持久缓存，我关心的是缓存何时过期？dt.cache()

浏览 0提问于2016-05-10得票数 11

回答已采纳

1回答

克里奥java.lang.UnspportedOperationException

、、、、

我试图在中使用Kryo，但是在运行时显示了错误。我不明白这个错误意味着什么，有人能解释一下吗？我需要为Kryo改变什么来处理这个问题？问题在于成员变量mAlignmentBlocks类型为List<AlignmentBlock>。Kryo对这样的名单有问题吗？请注意，通过使用以下代码注册了AlignmentBlock和SAMRecord：kryo.register(classOforg.apach

浏览 0提问于2016-09-30得票数 0

3回答

火花减速器及求和结果问题

、

class emp(Dept:String, Desg:String, totalCost:Double, State:String)步骤3:拆分数据并创建emp对象的= data.map(x => ((x.Dept,x.Desg,x.State),(1,x.totalCost))) 第5步:使用reduceByKey进行分组，因为我们希望对员工总数和成本进行求和keyVals.reduceByKey{(a,b) => (a._1+b._1, a._2+b._2)} //

浏览 5提问于2017-08-17得票数 0

回答已采纳

1回答

访问Scala对象的成员

、

我调用了Spark RDD的first()方法，它返回了一个如下所示的对象：如何访问此对象的成员变量

浏览 0提问于2015-08-14得票数 0

1回答

在可序列化类中放置一个RDD会不好吗？

、、

例如，根据，当您在RDD.map中使用一个对象时，Spark将首先序列化整个ojbect。现在，让我们说，我有一个RDD定义为可序列化类的成员。星火会为RDD做些什么，它是否也会尝试序列化它。如果是这样的话，是怎么做的？ var a: String var rdd:

浏览 0提问于2019-07-29得票数 0

回答已采纳

1回答

将python函数传递给pyspark中的Scala RDD

、、、

我有一个scala库(简单地说)，它接收一个函数，将其应用于RDD并返回另一个RDD ..)spark._jvm.mylibrary.runFunction(myPythonRd

浏览 14提问于2019-11-14得票数 0

3回答

星火流中的序列化问题

、、、

我对星火如何处理引擎盖下的数据感到非常困惑。例如，当我运行流作业并应用foreachRDD时，其行为取决于变量是从外部范围捕获还是在内部初始化。val sparkConf = new SparkConf() val spark = SparkSession.builder.config$DirectKafkaInputDStreamCheckpointData的对象被序列化，可能是<

浏览 1提问于2016-09-26得票数 10

2回答

不可序列化的任务-Java1.8和Spark2.1.1

、

我对Java 8和Spark2.1.1有问题at org.apache.spark.rdd.RDD$$anonfun$filte

浏览 0提问于2018-08-18得票数 2

回答已采纳

1回答

在Amazon上持久化S3

、、

我在Amazon上有一个包含JSON对象的大文本文件。我计划使用亚马逊EMR上的Spark来处理这些数据。如果我能够持久化RDD表示，是否有可能在下次需要分析相同数据时直接以RDD

浏览 1提问于2014-07-03得票数 4

1回答

如何分割一个巨大的rdd并轮流播放？

在每次广播转弯时，我们尝试将较小的rdd的一部分收集到驱动程序，然后保存到HashMap，然后广播HashMap。每个执行者使用广播值对较大的rdd执行映射操作。我们通过这种方式实现我们的倾斜数据连接。但是当它在每个回合中处理广播值时。我们发现处理后不能破坏我们的广播值。如果使用broadcast.destroy()，下一轮处理</em

浏览 0提问于2016-01-07得票数 2

回答已采纳

6回答

缓存和持久化有什么区别？

、、

在RDD持久化方面，cache()和persist()在spark上有什么不同？

浏览 3提问于2014-11-12得票数 223

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用Spark RDD处理对象的成员变量时，处理结果未保存，

相关·内容

使用Spark RDD处理对象的成员变量时，处理结果未保存，

有必要在Spark中广播object成员吗？

多线程PySpark，无法序列化对象异常。

火花ML管道api保存不工作

Apache Ignite永远无法保存Spark上的值

在Spark RDD操作中使用类方法返回任务不可序列化异常

Scala中的Spark RDD可以是var而不是val吗？

火花缓存与广播

正确使用大型广播变量的提示？

RDD的缓存什么时候过期？

克里奥java.lang.UnspportedOperationException

火花减速器及求和结果问题

访问Scala对象的成员

在可序列化类中放置一个RDD会不好吗？

将python函数传递给pyspark中的Scala RDD

星火流中的序列化问题

不可序列化的任务-Java1.8和Spark2.1.1

在Amazon上持久化S3

如何分割一个巨大的rdd并轮流播放？

缓存和持久化有什么区别？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐