默认情况下，spark上的persist()存储到内存还是磁盘？

文章/答案/技术大牛

发布

0回答

database、apache-spark

我知道，在spark上，您可以更改persist()以将数据存储到内存或磁盘，但我想知道缺省值是什么。我试着搜索这个，但没有得到一个明确的答案。

浏览 2提问于2017-06-03得票数 3

回答已采纳

1回答

Spark如何处理超出其容量的内存

apache-spark

假设我的Spark集群有100G内存，在Spark计算过程中，会生成更多大小为200G的数据(新数据帧、缓存)。在这种情况下，Spark会将部分数据存储在磁盘上，还是只会使用OOM

浏览 235提问于2020-07-14得票数 0

回答已采纳

2回答

当文件不能放入spark的主内存时，spark如何读取大文件(‘s)

apache-spark、rdd、partition

在这些情况下，大文件会发生什么情况？ 1) Spark从NameNode获取数据的位置。Spark是否会在同一时间停止，因为根据来自NameNode的信息，数据大小太长？2) Spark根据datanode块大小对数据进行分区，但不能将所有数据存储到主存中。这里我们不使用StorageLevel。那么这里会发生什么呢？3) Spark做数据分区，有些数据会存储在主存中，一旦这个主存中的数据被重新处理

浏览 0提问于2017-10-09得票数 30

回答已采纳

1回答

Spark流不会持久化信息

hadoop、apache-spark、bigdata、real-time、spark-streaming

我已经创建了一个类似于wordcount的Spark流脚本。优点是，我希望将所有信息存储在一个集合(addedRDD)中，但过了一段时间后，由于块消失了，一个异常被启动。有没有办法将这个累积的RDD保存在内存中？import org.apache.spark._import scala.collection.mutableval wordCounts = pairs.reduce

浏览 2提问于2017-10-26得票数 0

1回答

spark会自动溢出到磁盘吗？

apache-spark

我有一个由10个节点组成的集群，每个节点都有244 1TB内存和1TB内存。如果我有一个500GBx10的数据集，spark是否会自动默认为磁盘溢出，或者我是否必须调用persist和默认存储级别为MEMORY_AND_DISK？

浏览 86提问于2019-10-02得票数 0

1回答

Intermediate rdd与rdd.persist()的区别

python、apache-spark、rdd

我知道当Spark处理中有几个阶段时，中间阶段rdd会一直存储到作业完成，但读到缓存()和持久化()的用法时，我感觉它们也在做同样的事情(除了可以使用的MEMORY_AND_DISK、MEMORY_ONLY有人能告诉我们为什么我们在使用中间rdd时显式地使用cache()和persist()吗?你能给出这两者的一些用例吗？

浏览 0提问于2020-06-06得票数 0

2回答

在Apache中，RDD方法的默认持久化级别是持久化()和缓存()

python-2.7、apache-spark、persistence

1.在Python中，cache()的默认持久性级别是多少？MEMORY_ONLYMEMORY_AND_DISK2.根据“学习火花”一书，persist()默认的持久化水平MEMORY_ONLY_SER是正确的吗？

浏览 1提问于2018-09-26得票数 0

回答已采纳

6回答

缓存和持久化有什么区别？

apache-spark、distributed-computing、rdd

在RDD持久化方面，cache()和persist()在spark上有什么不同？

浏览 3提问于2014-11-12得票数 223

1回答

使用没有createOrReplaceTempView的SQL进行星火数据选择

apache-spark、pyspark、apache-spark-sql、pyspark-sql、pyspark-dataframes

我想在Spark df上执行类似SQL的语法。假设我需要计算一下[1]临时广播：df = spark.sql("select *, 113.4*col1 +41.4*AS cal_col from df_view") 问:广播一个大的df是否有很大的开销？如果是

浏览 5提问于2020-03-31得票数 0

回答已采纳

1回答

当使用Mongo火花连接器时，我如何从星火中的Mongo分离？

mongodb、scala、apache-spark

mongoData.createOrReplaceTempView("myNewView") 我在myNewView上做了很多处理，在一个循环中尝试不同的计算。当它启动时，我可以看到我的单上帝进程在CPU利用率上急剧上升。我怎样才能做到这样，当我处理数据时，它就不会一直回到蒙古族了？我需要对数据做大量的计算，并且不想对我的Mongo实例进行分析。

浏览 0提问于2018-08-21得票数 0

回答已采纳

1回答

df.SaveAsTable和spark.sql之间的差异(创建表.)

scala、apache-spark、hive、pyspark、apache-spark-sql

);spark.sql("create table mytable as select * frommy_temp_table"); 在这种情况下，表存储在内存中，在这种情况下物理存储在磁盘上？而且，根据我的理解，createOrReplaceTempView只注册数据(已经在内存<

浏览 1提问于2019-04-15得票数 10

回答已采纳

2回答

当中间输出不适合火花中的RAM时会发生什么

hadoop、apache-spark、rdd

我刚开始学习Spark。根据我的理解，Spark将中间输出存储在内存中，因此与Hadoop相比速度非常快。如果我错了，请纠正我。我的问题是，如果我的中间输出是2GB，空闲RAM是1GB，那么在这种情况下会发生什么呢？这也许是个愚蠢的问题，但我还没有理解火花在记忆中的概念.有人能解释一下火花在记忆中的概念吗？谢谢

浏览 5提问于2015-10-18得票数 5

回答已采纳

2回答

哪个内存部分用于计算不会被持久化的RDD

apache-spark、shuffle、rdd

我对火花很陌生，我知道Spark将执行器内存划分为以下几个部分：洗牌和聚合缓冲区：，火花用来存储洗牌输出。如果洗牌输出超过此分数，火花将泄漏数据到磁盘(默认0.2) 用户代码：火花使用此部分执行任意用户代码(

浏览 0提问于2015-07-19得票数 6

2回答

在Spark中，"RDDs可以存储在内存中“是什么意思？

mapreduce、apache-spark

在Spark的介绍中，它说据我所知，您必须使用.cache()或.persist().If手动缓存RDD。sc.textFile("hdfs://data/kv1.txt") file.count() 我没有将RDD“文件”保存在缓存或磁盘中，在这种情况下，Spark能比MapReduce运行得更快吗？

浏览 1提问于2014-09-10得票数 4

2回答

如何使星火使用来自Parquet文件的分区信息？

python-3.x、apache-spark、pyspark、parquet

如果我计算并持久化这些分区，Spark就会使用它们。如果我将分区数据保存到Parquet并在以后重新加载它，分区信息就会消失，Spark将重新计算它。有人知道我做错了什么吗？..or，如果这是火花可以做的事情？pyspark.sql import SQLContext from pyspark.sql.types imp

浏览 3提问于2016-02-11得票数 1

回答已采纳

1回答

当存储级别设置为磁盘时，Spark将数据存储在哪里？

scala、hadoop、apache-spark、bigdata、hadoop-yarn

我想知道当存储级别设置为DISK_ONLY或MEMORY_AND_DISK时，Spark在哪个目录中存储数据(在这种情况下，数据不能放入内存)。因为我看到，我设置哪个级别并没有区别。在我使用的集群中，/tmp目录是一个内存磁盘，因此大小受到限制。Spark是否正在尝试将磁盘级数据存储到该驱动器？也许，这就是为什么我看不到区别的原因。如果确实是这样，我该如何更改此默

浏览 0提问于2015-09-17得票数 5

1回答

数据帧大小持续增长，尽管其数量没有增长

apache-spark、spark-dataframe

我需要些帮助我的程序使用spark2.0.1在local6上运行def main(args: Array[String]): Unit = { val df1 = initia

浏览 2提问于2016-11-16得票数 1

1回答

Spark中的shuffle write存储在哪里？

apache-spark

根据Spark我的问题是，随机写入发生在哪里？在写入时，整个数据是否仅在本地磁盘上进行混洗？或者只在RAM内存中写入要混洗的全部数据？或者基于RAM的可用性，它是否将要混洗的数据的一部分写入磁盘，将某些部分写入RAM？请解释一下

浏览 0提问于2020-04-17得票数 1

1回答

在上调用`cache‘是否消除了以后对Hive/HDFS的调用？

apache-spark、hadoop、hdfs

我们有一个spark应用程序，它从存储在HDFS中的parquet文件上构建的HMS表中读取使用spark的数据。spark应用程序运行在单独的hadoop环境上。由于委托令牌过期，经过一段时间后，我们的spark应用程序将不再能够进行身份验证，如果它没有在令牌有效的时间范围内完成，则会失败。我的问题是这个。如果我在执行所有后续操作所针对

浏览 7提问于2022-01-10得票数 0

2回答

如何使用RDD持久化和缓存？

java、apache-spark、spark-streaming

请告诉我如何使用RDD方法--持久化()和Cache()，它似乎适用于我通常用java编写的常规程序，比如sparkStreaming，它是DAG的持续执行，每次更新RDD的值，因此perist/cache但是，如下面的文档所示，这些方法似乎只对交互式shell有用，或者与仅在任何引用变量中存储所需的RDD相比，我是否可以更有效地使用顺序程序中的缓存/持久化RDD。scala> linesWithSpark.cache() res7: spark</em

浏览 4提问于2015-06-23得票数 3

点击加载更多