Spark:取消持久化我丢失了引用的RDDs

Spark是一个快速、通用的大数据处理框架，它提供了高效的数据处理能力和易于使用的API。在Spark中，RDD（弹性分布式数据集）是其核心概念之一。

当我们在Spark中创建RDD时，它会默认进行持久化，即将数据存储在内存中以供后续使用。然而，有时候我们可能会丢失对某个RDD的引用，或者希望手动取消对某个RDD的持久化，以释放内存空间。

取消持久化可以通过RDD的unpersist()方法来实现。该方法用于告诉Spark不再需要持久化该RDD，从而释放相关的内存资源。调用unpersist()方法后，Spark会将该RDD从内存中删除，并在需要时重新计算。

需要注意的是，取消持久化只是告诉Spark不再需要该RDD的持久化副本，但并不会立即删除所有数据。如果该RDD的数据已经被写入磁盘或其他外部存储系统，那么取消持久化只会删除内存中的副本，而不会删除磁盘上的数据。

Spark提供了多种持久化级别，包括内存、磁盘和序列化等。可以根据具体需求选择适合的持久化级别。此外，Spark还提供了一些高级特性，如数据分区、数据倾斜处理、容错性等，以提高数据处理的效率和可靠性。

对于Spark的持久化操作，腾讯云提供了适用于大数据处理的云产品，如TencentDB for TDSQL、TencentDB for Redis、TencentDB for MongoDB等。这些产品可以与Spark集成，提供高性能的数据存储和管理能力。具体产品介绍和链接如下：

TencentDB for TDSQL：腾讯云的分布式关系型数据库，适用于大规模数据存储和查询。详情请参考：TencentDB for TDSQL产品介绍
TencentDB for Redis：腾讯云的内存数据库，支持高速读写和复杂数据结构。详情请参考：TencentDB for Redis产品介绍
TencentDB for MongoDB：腾讯云的分布式文档数据库，适用于大规模数据存储和高性能查询。详情请参考：TencentDB for MongoDB产品介绍

通过与这些云产品的结合，可以更好地利用Spark进行大数据处理和分析，提高数据处理的效率和可靠性。

Spark:取消持久化我丢失了引用的RDDs

scala、apache-spark

如何取消持久化在没有引用的MLlib模型中生成的RDD？我知道在pyspark中，你可以用sqlContext.clearCache()解压所有的数据帧，除了scala API中的RDDs之外，还有类似的东西吗？此外，有没有一种方法可以只取消一些RDDs的持久化，而不必取消所有RDDs的<em

浏览 2提问于2017-02-07得票数 6

回答已采纳

1回答

RDDs在spark中能持续多久？

apache-spark、persistence、spark-streaming、rdd

我已经写了一个程序，在其中我将RDD持久化到spark stream中，这样一旦新的RDD来自spark stream，我就可以将以前缓存的RDD与新的RDD连接起来。有没有办法为这个持久化的RDDs设置生存时间，这样我就可以确保我不会加入我在上一个流周期中已经得到的

浏览 1提问于2015-07-15得票数 1

1回答

Rdd持久性如何支持容错

apache-spark、pyspark

我想了解spark的rdd持久性是如何帮助容错的。假设我的集群中有3个节点，即N1、N2、N3。我以Rdd1->Rdd2->Rdd3的形式执行spark任务(转换映射)。我已经持久化了rdd2(在rdd3计数上它是第一次成功)。在持久化方面，假设它有6个分区，我的每个节点都有2个分区，在持

浏览 0提问于2018-01-31得票数 1

1回答

H20数据帧与Spark* RDD的区别*

h2o

我正在研究h2o框架，以使用其额外的机器学习工具。我只是好奇H20数据帧和Spark RDDs有什么不同。h2o数据帧可以像Spark RDDs一样缓存或持久化吗？

浏览 0提问于2017-05-21得票数 2

1回答

持久化后看不到Spark RDDs

apache-spark、rdd、persist、tmp

我使用的是Spark1.2.0，并且没有显式地配置SPARK_LOCAL_DIRS，所以假设持久化的RDDs将转到/tmp。我正在尝试使用以下代码进行持久化和RDD： val inputRDD=sc.parallelize(List(1,2,3,3,4,5,6,7,8,9,19,22,21,25,34,56,4,32,56,70println(result.collect().mk

浏览 1提问于2015-10-18得票数 3

1回答

何时持久化和何时取消持久化Spark中的RDD

scala、hadoop、apache-spark、rdd

假设我有以下内容： val dataset3 = dataset2.map如果你在dataset2上做一个转换，那么你必须持久化它，并将它传递给dataset3，然后取消持久化前一个？我正在尝试弄清楚何时持久化和取消持久化RDDs。对

浏览 0提问于2015-11-23得票数 3

1回答

如何计算缓存中特定RDDs的大小？

apache-spark

我经常处理因超过记忆限制而被纱线杀死的容器。我怀疑这与以低效方式缓存/取消RDDS/Dataframes有关。调试这类问题的最佳方法是什么？我看过Spark中的“存储”选项卡，但是"RDD名称“没有比"MapPartitionsRDD”或"UnionRDD“更具有描述性。如何确定哪些特定的RDD占用缓存中的最大空间？为了找出内存不足的</e

浏览 2提问于2017-11-20得票数 0

回答已采纳

1回答

为什么默认的持久化()会将数据作为非序列化对象存储在JVM堆中？

apache-spark、caching、persistence、spark-streaming、rdd

我正在学习Apache，并试图清除与Spark中RDDs的缓存和持久性相关的概念。为了避免多次计算RDD，我们可以要求Spark将数据持久化。当我们要求Spark持久化一个RDD时，计算RDD的节点会存储它们的分区。火花有很多层次的坚持，可以根据我们

浏览 0提问于2017-12-08得票数 2

回答已采纳

3回答

RDD的缓存什么时候过期？

apache-spark、pyspark

我们在RDD上使用.cache()对数据集进行持久缓存，我关心的是缓存何时过期？dt.cache()

浏览 0提问于2016-05-10得票数 11

回答已采纳

1回答

关于数据集中的kryo和java编码器的问题

apache-spark、apache-spark-dataset、kryo、apache-spark-encoders

我使用的是Spark2.4，指的是public class EmployeeBean implements Serializable { privateSpark中寻找存储空间。的大小不应该小于Java序列化RDD，而不是双倍大小吗？我也尝试了MEMORY_ONLY_SER()模式和RDDs大小是相同的。RDD作为序列化的Java对象应该

浏览 1提问于2019-01-04得票数 2

回答已采纳

1回答

如何强制对火花DataFrames的记忆进行持久化？

apache-spark

我正在使用withColumn和窗口操作(使用Python/Spark)构建许多新列。这导致了一个大的血统，这减慢了操作。实际上，每隔几步将DataFrame持久化到磁盘非常有帮助。(我见过关于count的建议，但我的印象是只适用于RDDs?)

浏览 0提问于2017-02-14得票数 2

回答已采纳

1回答

火花新手(ODBC/SparkSQL)

odbc、apache-spark、apache-spark-sql

我有一个spark集群设置，并在我的数据集中尝试了本机scala和spark，并且这个设置在大多数情况下似乎都是有效的。我有以下问题从ODBC/扩展连接到集群，我应该期待什么？-管理员/开发人员将塑造数据并保持/缓存一些将要公开的RDDs？(在蜂箱表的线条上思考)--在spark/spark sql中连接到“蜂巢亚稳态”意

浏览 3提问于2014-10-03得票数 3

回答已采纳

2回答

如何访问应该从DAGScheduler缓存的RDD？

caching、apache-spark、scheduler、rdd、directed-acyclic-graphs

有人知道如何提取应该从DAGScheduler中缓存的RDDs吗？不是真正缓存的那些，而是打算在阶段执行开始之前缓存的那些。

浏览 3提问于2017-02-21得票数 1

回答已采纳

1回答

火花过滤器的奇异行为

python、apache-spark、pyspark、rdd

A.filter(lambda x: x < t)t = 10print C.collect()但是，如果我改变了C = B.filter(lambda x: x > m) 会很好的。我不

浏览 0提问于2018-03-18得票数 0

回答已采纳

2回答

spark RDD容错的误区

apache-spark、spark-streaming、rdd、distributed-computing、fault-tolerance

很多人说：Spark安排了DAG中的操作，构建graph.Spark谱系。如果RDD丢失，它们可以在谱系图的帮助下重建。因此，不需要数据复制，因为可以从谱系图重新计算RDDS。如果一个节点出现故障，spark只会重新计算这个节点上丢失的RDD分区，但是重新计算过程中需要的数据源从哪里来？你<

浏览 0提问于2017-09-06得票数 5

2回答

取消RDD持久化是如何导致RPC超时的？

scala、apache-spark

我缓存了一个非常大的RDD (它仍然可以放在内存中)，但是因为它太大了，所以我想尽快取消它。This timeout is controlled by spark.rpc.askTimeoutval tranformation1 = firstTransformationcount)transformatio

浏览 0提问于2017-11-22得票数 5

2回答

持久化数据访问忽略StorageLevel

apache-spark、apache-spark-sql

我正在使用spark数据格式，并且在持久化以加快以后的计算方面遇到了问题。具体来说，当调用persist(StorageLevel.MEMORY_AND_DISK)并随后签入Spark的“存储”选项卡时，我可以看到RDDs正在缓存，但是存储级别总是显示Memory Deserialized1x Replicated，“磁盘上的大小”列显示所有RDDs的0.0B。我

浏览 3提问于2017-06-30得票数 3

回答已采纳

2回答

在星火中连接多个表的有效方法--设备上没有空间

apache-spark、pyspark、hadoop-partitioning

也问过一个类似的问题，但它并没有恰当地解决我的问题。我有将近100个DataFrames，每个行至少有200,000行，我需要通过基于列ID的full连接来加入它们，从而创建一个列- ID, Col1, Col2,Col3,Col4, Col5...,为了说明一下，我的DataFrames的结构- df1 = df2 = df3 = .....现在，如果我

浏览 0提问于2019-03-14得票数 6

1回答

spark检查点是否比缓存更快？

performance、apache-spark、apache-spark-sql、checkpointing

在我的spark应用程序中，我在spark rdd中读取了几个hive表，然后在稍后对这些rdd执行了一些转换。为了避免重新计算，我使用rdd.cache()或rdd.persist()和rdd.checkpoint()方法缓存了这些rdds。根据spark文档和在线参考，我认为检查点操作比缓存成本更高。奇怪的是，我在我的例子中观察到的

浏览 3提问于2017-07-07得票数 4

2回答

为什么SparkR中的collect速度如此之慢？

r、apache-spark、sparkr

我有一个500K行的spark DataFrame，它位于拼图文件中。我使用的是spark 2.0.0和Spark (RStudio和R 3.3.1)中的SparkR包，它们都运行在具有4核和8 8gb内存的本地机器上。为了便于构建我可以在R中处理的数据集，我使用collect()方法将spark DataFrame引入R中。这样做需要大约3分钟，这比使用data

浏览 9提问于2016-09-19得票数 8

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark:取消持久化我丢失了引用的RDDs

相关·内容

Spark:取消持久化我丢失了引用的RDDs

RDDs在spark中能持续多久？

Rdd持久性如何支持容错

H20数据帧与Spark* RDD的区别*

持久化后看不到Spark RDDs

何时持久化和何时取消持久化Spark中的RDD

如何计算缓存中特定RDDs的大小？

为什么默认的持久化()会将数据作为非序列化对象存储在JVM堆中？

RDD的缓存什么时候过期？

关于数据集中的kryo和java编码器的问题

如何强制对火花DataFrames的记忆进行持久化？

火花新手(ODBC/SparkSQL)

如何访问应该从DAGScheduler缓存的RDD？

火花过滤器的奇异行为

spark RDD容错的误区

取消RDD持久化是如何导致RPC超时的？

持久化数据访问忽略StorageLevel

在星火中连接多个表的有效方法--设备上没有空间

spark检查点是否比缓存更快？

为什么SparkR中的collect速度如此之慢？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐