Spark:取消持久化后未释放内存_删除网格后未释放JavaFX内存_Spark:取消持久化我丢失了引用的RDDs - 腾讯云开发者社区

java、apache-spark、memory、dataset、persistent-storage

非常简单，我在17个节点的集群上使用spark 2.4.3，并且我有一个持久化的数据集。最后，在执行了一些计算/操作之后，我使用了unpersist()，但根据Spark UI中的存储选项卡，数据集在最后仍然保留在内存中。即使我使用unpersist(true)，数据集最终仍然存在。

浏览 77提问于2020-09-18得票数 0

回答已采纳

1回答

为什么将两个火花作业组合在一起会使性能比一个接一个运行差呢？

scala、apache-spark、rdd

我有两个火花实用程序函数: myUtility1和myUtility2。他们是相当独立的彼此，不重要谁跑第一。val outData1 = myUtiltity1.process(inputData, utilData1)如果我跑：它能用20分钟。一切顺利，无需再试。 val outData1 = myUtiltity1.process(inputData, utilData1) val outData

浏览 5提问于2015-06-23得票数 0

1回答

转换任务数据流

apache-spark

经过一些Web研究后，我仍然对Apache Spark任务在数据的一个分区上完成其转换任务时到底发生了什么感到困惑。我知道转换任务是内存中的操作，并创建一个新的RDD，但是这个RDD存储在哪里？毕竟，当任务完成时，内存会被释放，因此产生的RDD必须持久化到某个地方，对吧？毕竟，它必须传递到下一个任务或阶段。你能告诉我一些文档吗？

浏览 0提问于2019-12-20得票数 0

2回答

火花RDD -分区总是在RAM中吗？

hadoop、apache-spark、pyspark、hdfs、rdd

我们都知道斯派克在内存中做计算。我只是对下面的内容感到好奇。如果我从HDFS中在我的RDD外壳中创建了10个pySpark，这是否意味着所有这10个RDD的数据都将驻留在Spark内存中？

浏览 5提问于2016-11-22得票数 21

回答已采纳

1回答

如何取消在另一个数据帧之上创建的缓存数据帧的持久化

apache-spark、apache-spark-sql

如何取消在另一个数据帧之上创建的缓存数据帧的持久化我已经从父df创建了多个数据框架，在代码的末尾，在所有转换完成之后，我将创建一个最终的df，它将包含大约1000亿条记录，而前面的df也将处理相同数量的数据在将最终df保存到hdfs中的parquet文件之前，有人能帮助我释放未使用的df吗?我希望这将释放内存中的空间，并帮助更快地将最终df写入到parquet文件中。

浏览 0提问于2020-12-25得票数 0

回答已采纳

1回答

在2个dataframe Spark中缓存同一表两次

java、scala、apache-spark、caching、apache-spark-sql

我已经在Spark中将一个蜂窝表缓存到一个数据帧中。使用计时器，我在2小时后再次安排缓存，并存储到不同的数据帧中。但这一次，缓存并没有像我预期的那样工作。现在，2小时后，我想刷新缓存，然后将该变量指向这个新缓存，并取消对旧缓存的持久化。如果第二个缓存失败，我不会重新指向。下面是我的代码。private static Dataset<Row> dataset;.. public void cacheDataset(SparkSession spark</em

浏览 55提问于2020-08-31得票数 0

1回答

Spark -如何将持久化数据从磁盘移动到缓存？

apache-spark

在进行即席数据分析时，我遇到了一个非常简单但令人沮丧的模式：您将rdd1缓存在内存中，然后将rdd2缓存在内存中，由于内存限制，这会将rdd1逐出到磁盘。如果你要取消持久化rdd2，有没有什么办法让spark把rdd1移回内存呢？

浏览 0提问于2020-04-10得票数 0

1回答

与多个源和操作相结合的火花缓存

scala、apache-spark

下面是伪代码中的用例val ds2 = spark.loadFromDatabase阻止spark多次从表加载数据，也是因为这些操作将替换表内容，因此在执行操作时会导致意外行为(5)由于性能原因阻止spark多次执行某些转换(例如intermediateDs2和intermediateDs3首先，我认为最好缓存多次使用的数据集，并在不再需要数据集以释放</em

浏览 4提问于2022-04-21得票数 0

1回答

如何在火花流上保持固定大小

apache-spark、spark-streaming

我正在尝试Spark中的持久化特性，以便将数据持久化到内存中，并对其进行计算。 windowed.persist(MEMORY_ONLY_SER) 当我达到2GB时，我做了另一个治疗，我使用无坚持释放内存如果我知道我坚持了多少，我如何使用它作为管道(如果持久化== 2GB

浏览 3提问于2016-04-19得票数 1

回答已采纳

1回答

Spark和非持久化catalog.clearCache

java、spring-boot、apache-spark

我是spark的新手，正在寻找一个完全清除缓存的选项。深入研究后，我发现我有两个选择 SparkInstance.catalog().clearCache(); // removes all the tables from the in-memory cache我相信取消持久化RDD还会从catalog()包含的内存中删除所有数据。如果我说错了，请纠正我

浏览 202提问于2020-11-21得票数 2

2回答

取消RDD持久化是如何导致RPC超时的？

scala、apache-spark

我缓存了一个非常大的RDD (它仍然可以放在内存中)，但是因为它太大了，所以我想尽快取消它。This timeout is controlled by spark.rpc.askTimeoutval transformation2 = secondTransformation(transformation1).cache取消RD

浏览 0提问于2017-11-22得票数 5

2回答

框架导致macOS内存泄漏

c++、objective-c、memory-leaks、garbage-collection、instruments

仅通过将框架链接到我的项目(例如，ImageIO.framework)，仪器就会列出应用程序关闭后未释放的内存分配。( 2)这是否是因为苹果知道操作系统是事后清理的？

浏览 4提问于2017-02-02得票数 0

1回答

使用spark.sql.autoBroadcastJoinThreshold时火花驱动程序不释放内存

apache-spark、apache-spark-sql、spark-dataframe

我遇到了不正常的行为，我有一个查询(inside循环)，在这个查询中，我有超过5个表的内部连接，其中一个有大约200 of，而所有其他表都在10 of以下(在循环开始时都持久化，在循环结束时未持久化)每当我使用spark.sql.autoBroadcastJoinThreshold (尝试过的默认值为5MB、1MB和100 of )之后，在多次运行相同的查询之后，它会继续添加驱动程序内存，最后由于内存不足而失败但是，如果我在spark</em

浏览 0提问于2018-02-14得票数 3

1回答

内存中是否有额外的缓存火花数据的开销？

apache-spark、apache-spark-sql、spark-streaming、spark-structured-streaming

我是星火公司的新手，我想了解是否会有额外的开销/延迟来持久化和不持久化内存中的数据。我在火花流作业中缓存数据帧，并想知道这是否会导致批处理执行中的额外延迟。

浏览 2提问于2020-04-07得票数 1

回答已采纳

1回答

在内存数据集中使用星火

mapreduce、apache-spark、in-memory-database

来自或者它仅仅意味着操作的结果将是在其执行后将保存在内存中？

浏览 1提问于2014-03-26得票数 0

回答已采纳

3回答

重新分区后是否需要缓存

caching、apache-spark

get(0).asInstanceOf[Long]在为数据帧上的下一个缩减作业重新分区后，

浏览 0提问于2016-07-12得票数 1

1回答

如何防止在删除GWAN KV存储的结构时出现争用状态？

c、locking、race-condition、data-storage、g-wan

(目前理论上)我面临的问题是：尝试使用->已经删除的对象做一些事情，这样我就可以访问已经释放的内存了吗

浏览 1提问于2013-07-03得票数 0

回答已采纳

2回答

火花数据集非持久化行为

apache-spark、apache-spark-sql

我的应用程序中有一个处理一个大数据集的管道--伪代码：data.join(df1, "key") //etc, more transformationssave, without cache it will trigger recomputation of whole dataset 但是，当我调用data.unpersist() (即就位(1) )时，Spark将从存储所有数据集中删除，也从extension数据集中删除，该数据集不是我试图取消</em

浏览 2提问于2018-01-17得票数 15

回答已采纳

1回答

在Spark* streaming微批处理结束时，内存持久化RDD是否是不持久的？*

apache-spark、spark-streaming、rdd

我使用Spark2.0.2(在DSE / DataStaX企业版5.1中)来运行一些流媒体应用。我的Spark streaming应用程序为每个微批处理调用了一些RDD.persist()，而RDD.unpersist()从未被调用过(到目前为止，我们依靠缓存空间的LRU功能来解除持久化)。我想我会在Spark UI的"Storage“选项卡中看到持久化RDD的列表增长了很多。然而，在Spark UI的"Storage“

浏览 0提问于2019-07-05得票数 0

1回答

关于火花的持久化机制

java、apache-spark、caching、bigdata

我正面临一个与火花的持久化机制有关的奇怪问题。我试图使用以下spark (2.1.1)配置来持久化相当大的数据集(MEMORY_AND_DISK_SER)：同样地，我有一个关于持久性顺序的问题。如果我分解代码，我会假设我的数据集将被计算并<e

浏览 0提问于2018-04-13得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云