spark:持久化分区不起作用

Spark是一个开源的大数据处理框架，它提供了高效的数据处理和分析能力。Spark的持久化分区功能是指将数据持久化到磁盘上的特定分区，以便在后续的计算中能够更快地访问和处理数据。

持久化分区的作用是优化数据处理的性能和效率。通过将数据分区存储在磁盘上，可以减少内存的使用，提高计算的速度。此外，持久化分区还可以提供数据的持久性，即使在计算过程中出现故障或重启，数据也可以被恢复和继续使用。

Spark的持久化分区功能适用于需要频繁访问和处理特定分区数据的场景，例如数据仓库、机器学习、图计算等。通过合理地使用持久化分区，可以提高数据处理的效率和性能。

腾讯云提供了一系列与Spark相关的产品和服务，包括云服务器、云数据库、云存储等。其中，推荐的腾讯云产品是腾讯云计算引擎（Tencent Cloud TKE），它是一种高度可扩展的容器化管理平台，可以方便地部署和管理Spark集群。您可以通过以下链接了解更多关于腾讯云计算引擎的信息：

腾讯云计算引擎（Tencent Cloud TKE）产品介绍：https://cloud.tencent.com/product/tke

总结：Spark是一个开源的大数据处理框架，持久化分区是其提供的一项功能，可以优化数据处理的性能和效率。腾讯云提供了与Spark相关的产品和服务，推荐的产品是腾讯云计算引擎（Tencent Cloud TKE）。

页面内容是否对你有帮助？

有帮助

没帮助

为什么自适应SQL不使用df？

、

val spark = SparkSession.builder().master("local[4]").appName("Test") .config("spark.sql.adaptive.coalescePartitions.enabledCode works

浏览 6提问于2022-02-10得票数 0

回答已采纳

1回答

DataFrame持久化()错误java.lang.OutOfMemoryError:超过GC开销限制

、、、

当我试图持久化在大小为270 on的表上创建的带有错误的DataFrame时，Pyspark作业失败。下面是配置，我试着使用执行器/驱动程序内存、洗牌分区、动态分配执行器和持久化存储级别(DISK_ONLY、MEMORY_AND_DISK)。我的意图是在一个键上对数据进行分区并持久化，这样我的连续连接就会更快。任何建议都会有很大帮助。()重新分区&

浏览 1提问于2019-02-14得票数 0

2回答

通过设置STORAGE_LEVEL来进行复制分区有什么好处

、、

通过设置MEMORY_ONLY_2、MEMORY_AND_DISK_2等存储级别来进行复制分区有什么好处？如果我们已经有了HDFS复制，那么使用这个有什么用呢？

浏览 0提问于2018-10-04得票数 1

1回答

我想了解spark的rdd持久性是如何帮助容错的。假设我的集群中有3个节点，即N1、N2、N3。我以Rdd1->Rdd2->Rdd3的形式执行spark任务(转换映射)。我已经持久化了rdd2(在rdd3计数上它是第一次成功)。在持久化方面，假设它有6个分区，我的每个节点都有2个分区，在持久化方面，它们在RAM(内存中)中。根据文档：“Spark的缓存是容错的--如果RDD的任何<em

浏览 0提问于2018-01-31得票数 1

0回答

Spark如何从故障节点恢复数据？

、、、

因此，为了一次又一次地保存计算，我们使用rdd.persist()方法持久化这个RDD。因此，当我们持久化这个RDD时，计算RDD的节点将存储它们的分区。那么现在假设包含这个RDD持久化分区的节点出现故障，那么会发生什么呢？spark将如何恢复丢失的数据？有没有复制机制？或者其他一些机制？

浏览 7提问于2017-12-08得票数 4

回答已采纳

1回答

为什么默认的持久化()会将数据作为非序列化对象存储在JVM堆中？

、、、、

我正在学习Apache，并试图清除与Spark中RDDs的缓存和持久性相关的概念。为了避免多次计算RDD，我们可以要求Spark将数据持久化。当我们要求Spark持久化一个RDD时，计算RDD的节点会存储它们的分区。火花有很多层次的坚持，可以根据我们的目标来选择。在Scala和Java中，默认的()将将数据存储在JVM堆中，作为非序列化对象()。在Python中，

浏览 0提问于2017-12-08得票数 2

回答已采纳

1回答

持久性在Spark中是如何工作的

、、、、

我持久化了一些存储在var中的数据帧。现在，当该变量的值发生变化时，持久性是如何工作的？

浏览 0提问于2018-08-17得票数 0

3回答

为什么在持久化操作之后触发重复转换？

、、、

我正在做count来执行持久化操作并修复上面的转换。

浏览 0提问于2018-03-14得票数 1

2回答

重新分区和合并未按预期工作

、、、

分区数量为5000个。我正在尝试重新划分它，然后持久化它。但是在我读取持久化数据之后，分区的数量正在发生变化。 val df = spark.read.parquet("...

浏览 0提问于2020-12-04得票数 1

1回答

火花DataFrame再划分与Parquet划分

、

我正在使用重新分区的列，以存储数据在拼花。但我看到了不。分割后的文件与否文件不相同。Rdd分区。rdd分区和拼板分区之间没有关联吗？当我将数据写入parquet分区并使用Rdd重新分区，然后从parquet分区读取数据时，rdd分区号在读/写过程中是否存在相同的条件？如何使用列id对数据进行存储，以及如何通过相同的列id重新分区数据？在考虑星火中联接的性能时，我们应该考虑的是阻塞或重新分区(或者两者兼

浏览 2提问于2018-09-26得票数 13

回答已采纳

1回答

Spark如何处理超出其容量的内存

假设我的Spark集群有100G内存，在Spark计算过程中，会生成更多大小为200G的数据(新数据帧、缓存)。在这种情况下，Spark会将部分数据存储在磁盘上，还是只会使用OOM

浏览 235提问于2020-07-14得票数 0

回答已采纳

1回答

Spark能否将单个RDD分区的一部分存储在内存中，另一部分存储在磁盘上？

、

根据标题: Spark能否将单个RDD/Dataset/DataFrame分区的一部分存储在内存中，部分存储在磁盘上？换句话说，假设持久化级别支持它，如果一个分区太大而不能存储在内存中，那么它能部分保存在内存中而部分保存在磁盘中吗？我的用例是我想要写出非常大的Parquet文件，而Spark的写行为是为每个分区编写一个文件。

浏览 0提问于2019-05-24得票数 2

回答已采纳

2回答

哪个内存部分用于计算不会被持久化的RDD

、、

我对火花很陌生，我知道Spark将执行器内存划分为以下几个部分： RDD存储:使用.persist()或.cache()存储持久化RDD的，可以通过设置spark.storage.memoryFraction它可以使用spark.shuffle.memoryFraction定义。我的问题是，使用哪个内存部分来计算和转换不会持久化的RDD？将不会一次加载整个文件，并将对输入文件进行分区，并在一个阶段内完成每个分区的所有这些转换。但是，哪

浏览 0提问于2015-07-19得票数 6

2回答

Apache是将RDD缓存在节点级还是集群级？

、、

我知道Apache 持久化方法会将RDD保存在内存中，如果内存空间不足，则将剩余的RDD分区存储在文件系统(磁盘)中。我似乎无法理解的是以下几点：Apache是否在节点B中寻找更多的内存空间，并尝试将所有内容存储在内存中？或者考虑到节点A中没有足够的空间，即使节点B中有可用的内存空间，Spark也会将剩余的RDD分区存储在节

浏览 1提问于2018-09-20得票数 3

回答已采纳

2回答

在持久化RDD上发生多个操作时，如何缓存RDD

、、、

//first action //second action如何持久化这个案子

浏览 0提问于2018-07-31得票数 3

回答已采纳

4回答

与spark中的所有其他任务相比，最后2/3的任务需要大量的时间

、、、、

程序在Spark上成功运行，但我面临的问题是在70个分区中，68个分区的时间比最后2个分区的时间缩短了约20%。我已经检查了我的数据在所有分区上是否均匀分布，甚至还检查了不同的样本数据。另外，我使用persist(StorageLevel.MEMORY_AND_DISK_SER)为所有数据帧运行了代码，并在不再需要这些数据帧时立即取消它们的持久化。我也尝试了增加和减少分区的数量，但对于最后两个任务，它仍然需要大量的时间。", "FA

浏览 29提问于2016-09-26得票数 1

2回答

将cache()和count()应用于数据库中的Spark是非常慢的。

、、、

因此，我复制了我的800万行-- Spark 287次--22亿行。为了进行复制，我执行了以下操作：datalake_spark_dataframe_new=datalake_spark_dataframe print(i) datalake_spark_dataframe_new=datalake_spark_dataframe_new.union(datalake_spark_dataframe我想补充的

浏览 0提问于2020-06-01得票数 3

回答已采纳

2回答

当文件不能放入spark的主内存时，spark如何读取大文件(‘s)

、、

1) Spark从NameNode获取数据的位置。Spark是否会在同一时间停止，因为根据来自NameNode的信息，数据大小太长？2) Spark根据datanode块大小对数据进行分区，但不能将所有数据存储到主存中。这里我们不使用StorageLevel。那么这里会发生什么呢？3) Spark做数据分区，有些数据会存储在主存中，一旦这个主存中的数据被重新处理，spark就会从磁盘中加载其他数据。

浏览 0提问于2017-10-09得票数 30

回答已采纳

1回答

Spark中的复制是如何工作的？

、

但是，如果源不是HDFS，如何在Spark中做到这一点？谢谢

浏览 13提问于2020-02-09得票数 0

1回答

Spark emr重新分区-计算-合并

、

persist(StorageLevel.MEMORY_AND_DISK)我试图进行的计算(DoComputation)代价很高，而且由于内存限制，我决定将数据集重新划分为7000个分区1)为什么当我持久化执行昂贵的计算后生成的RDD时，整个作业会被重试？2)我尝试在持久化之后合并，但是spark忽略了重新分区，只执行了500个任务： .join(anotherDataset) .f

浏览 2提问于2016-01-18得票数 0

点击加载更多