为什么spark不卸载内存，即使使用unpersist

Spark不会自动卸载内存，即使使用unpersist方法，是因为Spark的设计思想是尽可能高效地利用内存资源，以减少磁盘IO的开销，提高计算速度和性能。下面是对这个问题的详细解答：

Spark是一种基于内存的分布式计算框架，通过将数据加载到内存中进行处理，能够极大地加快计算速度。Spark通过在内存中维护弹性分布式数据集（RDD）来实现数据的高效处理。当对一个RDD执行unpersist操作时，Spark会尝试从内存中移除该RDD的数据，但并不一定会立即成功释放全部内存。

以下是为什么Spark不卸载内存的一些原因：

数据复用：Spark允许在多个操作之间复用RDD。如果在一个操作之后立即卸载RDD的内存，那么在下一个操作中再次使用该RDD时就需要重新加载数据，增加了磁盘IO的开销。因此，保留RDD的内存状态可以提高计算效率。
惰性求值：Spark使用惰性求值策略，即只有当需要计算结果时才会执行计算。因此，如果一个RDD在之后的计算中没有被使用，即使执行了unpersist操作，也不会立即释放内存，因为Spark并不知道该RDD是否会在后续计算中使用。
内存管理：Spark的内存管理器负责对内存进行优化和管理，根据内存使用情况来决定是否卸载RDD的内存。内存管理器会根据预先定义的策略，在需要时逐步释放不再使用的RDD的内存。这样可以避免频繁的内存操作，提高整体性能。
数据存储级别：Spark提供了不同的数据存储级别，包括内存和磁盘等。通过设置适当的存储级别，可以控制数据在内存中的存储方式和占用空间，以满足不同计算任务的需求。即使在内存中存储数据的情况下，Spark也会根据内存管理策略来决定是否卸载内存。

总结起来，Spark不会立即卸载内存是为了提高计算效率和性能。保留RDD的内存状态可以减少磁盘IO的开销，并且通过内存管理器智能地管理内存资源，避免频繁的内存操作。这种设计思想使得Spark能够在大规模数据处理和复杂计算任务中发挥更好的性能。

页面内容是否对你有帮助？

有帮助

没帮助

如何避免“任务大小太大”？

、

我的问题是，在使用Spark将表还原为更大的表时，任务大小太大了。在人们指出其他答案之前，说要使用、广播或避免结束整个类；让我说一下，我已经读过这些内容，而且在使用Spark时仍然很困惑。当使用Spark时，任务大小可达到推荐大小的10倍。这里是情况：我有10+表/数据帧连接到一个uber表中。我创建了一个scala对象，并在主体中从它们的CSV中填充了这10个表。我在其他对象中导入该对象的成员(只是表)，这些对象的计算形式是uber-table。当Spark连接在这10个表之间运行时，比如说，将结果表写到一个parquet文件中时，我会得到任务大小警告。

浏览 0提问于2017-03-06得票数 2

4回答

如何解除RDD？

、

我使用cache()来缓存内存中的数据，但是我意识到，在没有缓存数据的情况下，我需要对其进行缓存，以从内存中删除数据： rdd.cache(); //doing some computation ... rdd.uncache() 但我得到的错误是：值uncache不是org.apache.spark.rdd.RDD[(Int，ArrayFloat)]的成员。那我就不知道该怎么办了！

浏览 3提问于2014-09-19得票数 32

回答已采纳

4回答

如何更新星火中的少数记录

、、、

我在Scala中有下面的星星之火程序： val dfA = sqlContext.sql("select * from employees where id in ('Emp1', 'Emp2')" ) val dfB = sqlContext.sql("select * from employees where id not in ('Emp1', 'Emp2')" ) val dfN = dfA.withColumn("department", lit("Finance&

浏览 0提问于2018-02-05得票数 1

3回答

如何确保我的DataFrame释放它的内存？

、、、

我有一个Spark/Scala作业，在其中我会这样做： 1:将一个大型DataFrame df1 + cache计算到内存中 2:使用df1计算dfA 3:将原始数据读入df2 (同样是它的大数据)+ cache it 在执行(3)时，我不再需要df1。我想确保它的空间被释放。我在(1)处使用cached，因为这个DataFrame在(2)中被使用，这是确保我不会每次但只重计算一次的唯一方法。我需要释放它的空间并确保它被释放。我有什么选择？我想过这些，但这似乎还不够： df=null df.unpersist() 你能用一个正确的火花文档链接来记录你的答

浏览 0提问于2018-03-02得票数 9

回答已采纳

1回答

是否在Apache中评估“未持久化”懒惰？

、

在spark中，cache是延迟计算的，直到调用一个操作为止。同样的懒惰评估也适用于unpersist吗？

浏览 0提问于2019-07-01得票数 0

回答已采纳

2回答

在通过toPandas()将其转换成熊猫数据后，是否有任何方法可以将丢弃

、、

我使用4GB大小的输入文本文件创建Spark。然后使用如下条件： df.cache() #cache df for fast execution of later instruction df_pd = df.where(df.column1=='some_value').toPandas() #around 70% of data 现在我正在对熊猫数据中心df_pd做所有的操作。现在我的内存使用量约为13 GB。为什么，那么多的记忆被消耗了？如何使我的计算速度更快、效率更高？#这里的df.cache()导致缓存花费了10分钟。我试图通过使用df.unpers

浏览 0提问于2019-08-14得票数 2

1回答

如何正确地使用缓存()？

、

我正在使用Spark1.1.0，并试图将一个图形加载到GraphX中。代码的一小部分如下所示： val distinct = context.union(r1, r2).distinct; distinct.cache() val zipped = distinct.zipWithUniqueId zipped.cache distinct.unpersist(false) 当我在集群上执行它时，执行的第一个阶段是： distinct at Test.scala:72 但是在这个操作完成后，我无法在Spark的"Storage“选项卡中看到一个条目。下一阶段是： zipWithUni

浏览 6提问于2014-11-14得票数 3

回答已采纳

1回答

火花RDDs的非持久化操作成本有多高？

、、

我想知道，rdd.unpersist()操作在spark上的成本有多高？存储级别设置是否会影响该操作的性能？任何基准(结果/技术)都将非常有帮助。

浏览 1提问于2016-02-08得票数 0

回答已采纳

1回答

(Py)Spark中的缓存和循环

、、、

我知道在使用Spark时，“for”和“while”循环通常是要避免的。我的问题是关于优化一个“while”循环，但是如果我错过了一个不必要的解决方案，我会洗耳恭听。我不确定我是否可以用玩具数据演示这个问题(处理时间非常长，随着循环的进行而变得复杂)，但下面是一些伪代码： ### I have a function - called 'enumerator' - which involves several joins and window functions. # I run this function on my base dataset, df0, and retu

浏览 20提问于2020-12-10得票数 1

回答已采纳

1回答

为什么spark不卸载内存，即使使用unpersist

、、、、

我有一个嵌套的for循环的spark作业。我使用嵌套的for循环的原因是，我有一个非常大的数据集，该数据集被并入modules中，并且我不想将所有分区都加载到内存中来完成我的工作。我有8模块，伪代码是这样的： inpath="s3://path" modules=fs.ls(inpath) for path in modules: modulepath='s3://' +path+ '/' module=path.split('=')[1] df=spark.read.option("baseP

浏览 17提问于2021-08-01得票数 0

2回答

取消RDD持久化是如何导致RPC超时的？

、

我缓存了一个非常大的RDD (它仍然可以放在内存中)，但是因为它太大了，所以我想尽快取消它。然而，当我对它调用unpersist时，它会导致一个RPC超时错误： 17/11/21 23:25:55 INFO BlockManager: Removing RDD 171 Exception in thread "main" org.apache.spark.rpc.RpcTimeoutException: Futures timed out after [120 seconds]. This timeout is controlled by spark.rpc.askTimeou

浏览 0提问于2017-11-22得票数 5

1回答

重用吡火花缓存并在for循环中不持久化

、、、

我有很多数据，我试着用块取出来--比如说三个块--而不是一次把所有的数据都缓存在内存中。然而，我想把它(动作)保存在以后的同一时间。这是目前简化的战略： for query in [query1,query2,query3]: df = spark.sql(query) df.cache() df1 = df.filter('a') df2 = df.filter('b') final_output_1 = final_output_1.join(df1) final_output_2 = final_o

浏览 1提问于2021-02-12得票数 0

回答已采纳

1回答

Spark Streaming中的RDD分布

、、

在spark streaming中，接收到的数据在集群中工作节点的多个Spark executors之间复制(默认复制系数为2)()。但是，如何才能获得特定RDD的复制位置？

浏览 2提问于2015-06-17得票数 0

3回答

取消持久化(py)spark中的所有数据帧

、、、、

我是一个spark应用程序，有几个点我想要持久化当前状态。这通常是在一个大的步骤之后，或者缓存一个我想要多次使用的状态之后。似乎当我第二次对我的数据帧调用cache时，一个新的副本被缓存到内存中。在我的应用程序中，这会导致在扩展时出现内存问题。尽管在我当前的测试中，给定的数据帧最大大约为100MB，但中间结果的累积大小超出了executor上分配的内存。请参见下面的小示例，该示例演示了此行为。 cache_test.py： from pyspark import SparkContext, HiveContext spark_context = SparkContext(appName=&#

浏览 9提问于2016-04-28得票数 39

回答已采纳

1回答

即使在未持久化的情况下，火花内存缓存仍在增加。

、、、、

我正在迭代3个大文件，并执行一堆统计计算。我有55 to的可用内存每个执行器，8V核心，和多达10个任务节点可用，除了一个核心和一个主节点。以下是我的实际代码的伪代码： #Load MyConfigMeta file- this is a small file and will be a couple of times in the code MyConfigMeta=spark.read.parquet("s3://path/MyConfigMeta.parquet") MyConfigMeta=MyConfigMeta.persist(StorageLevel.

浏览 0提问于2021-04-12得票数 3

回答已采纳

1回答

我需要持久化一个不断更新的RDD吗？

、、、

我正在使用一个spark程序，它需要在循环中不断更新一些RDD： var totalRandomPath: RDD[String] = null for (iter <- 0 until config.numWalks) { var randomPath: RDD[String] = examples.map { case (nodeId, clickNode) => clickNode.path.mkString("\t") } for (walkCount <- 0 until config.walkLength) { ran

浏览 0提问于2019-02-24得票数 0

1回答

Spark Cassandra应用程序始终运行模式

、、

我们可以使用scala创建一个始终处于运行状态的spark应用程序吗？例如，它定期执行作业，但驱动程序将继续运行，这样我就可以访问作业创建的RDD，而无需将其存储到永久存储中(类似于应用程序上下文)。摘要要求是在作业完成后仍将RDD保留在内存中。我是spark scala的新手，正在寻找您对此的指导。

浏览 0提问于2016-07-15得票数 0

3回答

带有备选方案的重载方法foreachBatch

、

我正在尝试将json文件序列化为parquet格式。我有一个错误： org.apache.spark.api.java.function.VoidFunction2[org.apache.spark.sql.Datasetorg.apache.spark.sql.Row，java.lang.Long])org.apache.spark.sql.streaming.DataStreamWriterorg.apache.spark.sql.streaming.DataStreamWriterorg.apache.spark.sql.Row错误：(34，25)重载方法foreachBatch与备选方

浏览 5提问于2020-07-28得票数 6

1回答

如何在结构化流中适当地使用foreachBatch.batchDF.unpersist()？(keep得到一个错误)

、、、

我使用的是Spark 3.0中的结构化流媒体。我正在尝试做的是将数据写入多个接收器。我需要写一些卡夫卡在另一个进程中使用的DataFrame，也需要存储在卡桑德拉相同的一个供以后使用(一些仪表板等)。对于目标进程，我编写了如下代码。我参考了here的官方文档。 merged_stream.writeStream //.trigger(Trigger.ProcessingTime("3 seconds")) .foreachBatch((batchDF: DataFrame, batchId: Long) => { batch

浏览 59提问于2020-08-29得票数 3

回答已采纳

2回答

为单个Action应用程序缓存dataframe是否有效，在该应用程序中引用该数据cache不止一次？

我对火花的缓存机制有点困惑。假设我有一个Spark应用程序，在多个转换结束时只有一个操作。在其中，假设我有一个dataframe A，并在其上应用了2-3转换，创建了多个数据文件，这最终有助于创建最后一个要保存到磁盘中的数据。例子： val A=spark.read() // large size val B=A.map() val C=A.map() . . . val D=B.join(C) D.save() 那么，为了提高性能，我需要缓存dataframe吗？提前谢谢。

浏览 0提问于2019-12-04得票数 6

回答已采纳

1回答

Apache : java.lang.OutOfMemoryError: Java问题

、、、

当我第二次运行相同的星火程序时，我正面临着java.lang.OutOfMemoryError: Java Heap Space问题。下面是一个场景：当我第一次执行spark-submit并运行spark程序时，它给了我正确的输出&一切都很好。当我再次执行相同的spark-submit时，它将抛出java.lang.OutOfMemoryError: Java Heap Space异常。当它再次工作时，？如果我在通过执行- spark-submit清除linux缓存后运行相同的/proc/sys/vm/drop_caches，那么它再次成功地运行一次。我试着设置所有可能的火花

浏览 2提问于2020-06-18得票数 0

1回答

何不从Azure Databricks中的吡火花缓存中删除我的路径？

、、、

我正在特定路径上读取一组csv文件： spark.read.format('csv').load('/mnt/path/') 我正在缓存我的数据，以便访问损坏的记录 data_frame.cache() 在我的笔记本的末尾，我想使用data_frame.unpersist()从缓存中删除这个路径。然后，我将更改基础数据，例如，删除或向表路径添加新文件。但是如果我再读一遍csv，spark.read.format('csv').load('/mnt/path/')，并没有进行最后的修改，它仍然显示缓存的数据。这让我觉得数据并不

浏览 0提问于2021-10-07得票数 3

1回答

表的行筛选器无效

、

我从Bigquery中的一个视图(在配置spark会话之后导入该视图)中获得了pyspark中的数据： config = pyspark.SparkConf().setAll([('spark.executor.memory', '10g'),('spark.driver.memory', '30G'),\ ('spark.jars.packages', 'com.google.cloud.spark:spark-bigquery-with-

浏览 2提问于2021-01-06得票数 1

1回答

Spark Persist和UnPersist

Dataset<Row> Data_one = spark.read().format("csv").option("header","true").load("src/main/resources/exams/students.csv"); System.out.println("Before persist"); Data_one.show(); Data_one.persist(StorageLevel.MEMORY_ONLY());

浏览 13提问于2020-02-10得票数 0

1回答

在Synapse DW中向多个表写入不同的数据帧

、、、、

浏览 4提问于2021-04-19得票数 1

回答已采纳

1回答

破坏()和未持久化()有什么区别？

、

Spark是随广播变量一起提供的，它允许我们将只读变量缓存在每台机器上，而不是将它的副本发送给任务。当然，当“广播变量”不再被使用时，删除这个变量是很自然的。但是，似乎有两种删除广播变量的方法： unpersist() //Destroy all data and metadata related to this broadcast variable. destroy() //Asynchronously delete cached copies of this broadcast on the executors. 我不确定要正确地理解所有的东西，unpersist()是否与delete(

浏览 3提问于2015-11-25得票数 8

1回答

星星之火RDD生命周期:是否将RDD回收到范围之外

、

在一个方法中，我创建了一个新的RDD，并对它进行缓存，在RDD超出作用域之后，Spark是否会自动取消rdd的持久化？我是这么想的，但到底发生了什么？

浏览 0提问于2015-04-23得票数 3

回答已采纳

2回答

PySpark: java.io.EOFException

、、、、

系统： 1个名称节点，4个核心，16 GB内存 1个主节点，4个核心，16 GB内存 6个数据节点，4个核心，每个16 GB内存 6个工作节点，4个核心，每个16 GB内存大约5兆字节的存储空间数据节点和工作节点存在于同一台机器上，名称节点和主节点存在于同一台机器上。在我们的对接器组合中，主节点有6 GB集，名称节点有8 GB集，工人有6 GB集，数据节点有8 GB集。我有两个rdds，它是计算笛卡儿乘积的，应用我写的函数，然后将数据存储在Hadoop中作为拼花表。在编写到Hadoop的大约180 k的parquet表之后，python意外地由于EOFException而崩溃。 conf

浏览 0提问于2018-10-24得票数 2

2回答

Apache内存不足，分区数量较少

我有一个持续耗尽内存的Spark应用程序，集群有两个节点，内存约为30G，输入数据大小约为几百GB。应用程序是一个Spark作业，它从HDFS中读取数据并创建一个表并缓存它，然后执行一些Spark查询并将结果写回HDFS。最初，我将数据分割成64个分区，得到了OOM，然后通过使用1024个分区修复了内存问题。但是为什么使用更多的分区帮助我解决了OOM问题？

浏览 7提问于2016-06-30得票数 4

1回答

如何优化星火作业处理S3文件到蜂巢式分体表中

、、、、

我是星火分布式开发的新手。我试图优化我现有的火花工作，它需要1小时才能完成。 Infrastructure EMR 10例r4.8xsize (32核，244 32) 源数据:1000个.gz文件，S3 (每个~30 S3) 火花执行参数执行器: 300，执行器内存: 6gb，核心:1 一般而言，星火作业执行以下操作： private def processLines(lines: RDD[String]): DataFrame = { val updatedLines = lines.mapPartitions(row => ...) spark.c

浏览 3提问于2019-01-21得票数 0

回答已采纳

2回答

Spark结构化流媒体应用阅读多个Kafka主题

、、

我有一个Spark结构化流媒体应用(v2.3.2)，它需要从一些Kafka主题读取，做一些相对简单的处理(主要是聚合和一些连接)，并将结果发布到其他一些Kafka主题。因此，在同一个应用程序中处理多个流。我想知道从资源的角度(内存、执行器、线程、Kafka侦听器等)它是否会有所不同。如果我只设置一个直接readStream，它订阅多个主题，然后使用selects拆分流，而不是每个主题1个readStream。就像这样 df = spark.readStream.format("kafka").option("subscribe", "t1,t2,t

浏览 28提问于2019-05-01得票数 11

回答已采纳

2回答

如何在一个Spark Job中调用多个writeStream操作？

、、

我正在尝试编写一个Spark结构的流式作业，它通过writeStream操作从Kafka主题读取并写入单独的路径(在执行一些转换之后)。但是，当我运行以下代码时，只有第一个writeStream被执行，第二个被忽略。 df = spark \ .readStream \ .format("kafka") \ .option("kafka.bootstrap.servers", "host1:port1,host2:port2") \ .option("subscribe", "topic1") \

浏览 0提问于2020-07-23得票数 2

1回答

火花作业-服务器释放内存

、、

我已经在独立模式下设置了一个火花作业服务器(请参阅)。我已经创建了一个要使用的默认上下文。目前，我在这方面有两种工作：与另一个服务器的同步：从另一个服务器的数据库转储数据；执行一些连接，减少数据，生成一个新的DF；将所获得的DF保存在拼花文件中；加载这个拼花文件作为一个临时表，并缓存它；查询:对缓存的表执行sql查询。我坚持的唯一对象是将被缓存的最后一个表。我不明白的是，为什么当我执行同步时，所有分配的内存都会被使用，并且从未释放，但是，如果我直接加载parquet文件(使用以前生成的parquet文件重新启动服务器)，那么只

浏览 1提问于2016-12-15得票数 1

1回答

Spark persist方法永远不会结束

、、

我为dataset调用持久化方法，通常它工作得很好，但有时它永远不会结束。我使用cloudera和Spark 2.1。有没有人有过同样的经历？ originalDataSet = originalDataSet.persist(StorageLevel.MEMORY_AND_DISK())；

浏览 0提问于2018-01-29得票数 0

2回答

如何刷新HDFS路径？

、、

我在jupyter笔记本上运行一个闪光会议。当路径下的文件发生更改时，spark.read.parquet(some_path)会在数据帧上出现错误，即使我缓存了数据文件也是如此。例如读取代码是 sp = spark.read.parquet(TB.STORE_PRODUCT) sp.cache() 有时候，sp不能再被访问了，抱怨： Py4JJavaError: An error occurred while calling o3274.collectToPython. : org.apache.spark.SparkException: Job aborted due to stag

浏览 0提问于2020-07-01得票数 0

回答已采纳

1回答

如何调优星火应用程序以避免OOM异常

、、、

我用火花2.0.2。我试图运行一个火花应用程序，对已经创建的模型进行预测。集群信息: m4.2xlarge 16 vCPU，32 GiB内存，EBS仅存储EBS存储:1000 GiB 根据的建议，我制作了一个来计算调优参数。无论我如何尝试，我都有以下两个例外：因超过记忆限度而被纱线杀死的容器。使用10.0GB的10 GB物理内存。考虑提高spark.yarn.executor.memoryOverhead。执行者心跳在159126 ms后超时下面是我正在尝试执行的代码 val allGears = sc.textFile(allGearsFilePath) val

浏览 1提问于2018-01-03得票数 2

1回答

星星之火结构化流度量标准令人困惑

、、

我启动了一个结构化流(Spark3.1.2)，它写到kafka (一个驱动程序，K8s上的5个执行器) dataFrame .writeStream .format("kafka") .option("kafka.bootstrap.servers", "kafka-host:9092") .option("topic", "my-topic") 当所有输入都被处理时，卡夫卡主题“my”包含了38087条新消息。所以38087行都写进了卡夫卡。度量被写入到Consol

浏览 7提问于2022-02-11得票数 1

2回答

星星之火:未持久化无用RDDs之后的图形api OOM错误

、、

我遇到了一个原因不明的退出Memeory错误，我已经立即释放无用的RDDs，但经过几轮循环后，OOM错误仍然出现。我的代码如下： // single source shortest path def sssp[VD](graph:Graph[VD,Double], source: VertexId): Graph[Double, Double] = { graph.mapVertices((id, _) => if (id == source) 0.0 else Double.PositiveInfinity) .pregel(Double.PositiveInf

浏览 6提问于2016-12-12得票数 7

回答已采纳

2回答

火花何时会自动清理缓存的RDDs？

、、、

使用scala终端的rdd.cache()方法缓存的RDD正在存储在内存中。这意味着它将消耗内存中的某些部分，这些部分可用于星火进程本身。话虽如此，如果ram被限制了，并且越来越多的RDDs已经被缓存，那么什么时候才能自动清除rdd缓存占用的内存呢？

浏览 4提问于2017-12-07得票数 3

回答已采纳

1回答

减少星火程序内存负荷的方法

、

我有一个Spark程序，它计算用户之间的关系，即它接收类型的数据集： RDD[(java.lang.Long, Map[(String, String), Integer])] 其中Long是时间戳，而映射是与两个用户的元组相关的分数。并且应该在分数上运行一些函数，并返回以下类型： Map[String, Map[java.lang.Long, java.lang.Double]] 其中，字符串是元组中的第一个字符串，而映射是每个时隙函数的结果。在我的例子中，我有大约2000个用户，所以我收到的地图相当大(每个时隙2000 ^2)，而且结果依赖于以前的时隙结果。我正在本地运行程序并接收GC

浏览 1提问于2016-07-17得票数 0

2回答

在databricks中，从大数据仓库或考拉数据库返回一行的最快方法是什么？

、、、、

我在databricks笔记本上有一张考拉的大数据(2000万行，35列)。我使用python对它执行了一些转换和连接(合并)操作，例如： mdf.path_info = mdf.path_info.transform(modify_path_info) x = mdf[['providerid','domain_name']].groupby(['providerid']).apply(domain_features) mdf = ks.merge( mdf, x[['domain_namex','domain_nam

浏览 1提问于2020-11-10得票数 0

1回答

何时以及如何从spark中的缓存中删除DataFrame？

、、

我正在学习spark，我想知道在spark脚本期间，我是否应该在执行运行DF的代码后清理数据帧？例如， # Do something on friends DF... friendsByAge = lines.select("age", "friends") friendsByAge.groupBy("age").avg("friends").show() # now do something unrelated to friends DF 在上面的例子中，在整个驱动程序脚本执行过程中(即使我不再需要它)，friendsBy

浏览 290提问于2021-10-10得票数 0

回答已采纳

1回答

RDDs在spark中能持续多久？

、、、

我已经写了一个程序，在其中我将RDD持久化到spark stream中，这样一旦新的RDD来自spark stream，我就可以将以前缓存的RDD与新的RDD连接起来。有没有办法为这个持久化的RDDs设置生存时间，这样我就可以确保我不会加入我在上一个流周期中已经得到的RDDs。另外，如果有人能解释并指出RDDs中的持久化是如何工作的，那就太好了，比如当我从spark context中获得持久化的RDDs时，我如何才能将这些RDDs连接到我现在的RDDs中。

浏览 1提问于2015-07-15得票数 1

2回答

Spark: DataFrame缓存/持久化是从一个传输到另一个吗？

、、

假设我有这样的代码(Spark 1.6.2)： val finalDF: DataFrame = if (test) { val df = sqlContext.read.parquet(url).cache df.write.parquet(url2) df } else sqlContext.read.parquet(other_url) 如果我运行finalDF.unpersist，它真的会从内存中清除finalDF/df的数据吗？如果没有，我该怎么做呢？

浏览 25提问于2017-01-24得票数 1

回答已采纳

1回答

Spark unpersist()有不同的策略吗？

、、

我只是做了一些关于spark unpersist()的实验，并对它的实际功能感到困惑。我在谷歌上搜索了很多，几乎所有人都说unpersist()会立即将RDD从excutor的记忆中逐出。但在这个测试中，我们可以看到它并不总是正确的。请看下面的简单测试： private static int base = 0; public static Integer[] getInts(){ Integer[] res = new Integer[5]; for(int i=0;i<5;i++){ res[i] = base++; } System.o

浏览 0提问于2017-11-04得票数 0

2回答

如何从Spark中的堆中删除/处置广播变量？

、、

要广播一个变量，使得一个变量在集群上的每个节点的内存中只出现一次，可以这样做：val myVarBroadcasted = sc.broadcast(myVar)，然后在RDD转换中检索它，如下所示： myRdd.map(blar => { val myVarRetrieved = myVarBroadcasted.value // some code that uses it } .someAction 但是假设我现在希望使用新的广播变量执行更多的操作-如果由于旧的广播变量而没有足够的堆空间怎么办？！我想要一个像这样的函数 myVarBroadcasted.remove() 现

浏览 4提问于2014-07-05得票数 23

回答已采纳

2回答

星星之火:Py4JJavaError:调用o142.saveAsTextFile时出错

、

当我通过rdd.repartition(1).saveAsTextFile(file_path)保存一对rdd时，会遇到一个错误。 Py4JJavaError: An error occurred while calling o142.saveAsTextFile. : org.apache.spark.SparkException: Job aborted. at org.apache.spark.internal.io.SparkHadoopWriter$.write(SparkHadoopWriter.scala:100) at org.apache.spark.rdd.

浏览 1提问于2020-07-01得票数 0

回答已采纳

3回答

使用Kafka直接流在Yarn上引发堆内存泄漏

、、、

我使用java 1.8.0_45和Kafka direct stream在Yarn (Apache发行版2.6.0)上运行spark streaming 1.4.0。我也在使用支持scala 2.11的spark。我看到的问题是，驱动和执行器容器都在逐渐增加物理内存的使用，直到纱线容器杀死它。我在驱动程序中配置了高达192M的堆空间和384个非堆空间，但最终用完了它在常规GC周期中，堆内存似乎没有问题。在任何这样的运行中都没有遇到过OutOffMemory 事实上，我没有在kafka队列上产生任何流量，仍然会发生这种情况。下面是我使用的代码 object SimpleSparkStream

浏览 3提问于2015-07-14得票数 17

1回答

理想的Spark配置

、、、

我在我们的项目中使用MapR的HDFS上的Apache spark。我们面临着运行spark Jobs的问题，因为它在数据小幅增加后失败了。我们正在从csv文件中读取数据，进行一些转换、聚集，然后存储在HBase中。当前数据大小= 3TB 可用资源:节点总数: 14可用内存: 1TB总VCores : 450总磁盘: 150 TB Spark Conf: executorCores :2 executorInstance : 50 executorMemory: 40 50: 600 请建议，如果上面的配置看起来很好，因为我得到的错误看起来像是去outOfMemory。

浏览 18提问于2020-03-31得票数 0

2回答