如果不需要缓存，apache spark会重用堆内存吗？

如果不需要缓存，Apache Spark不会重用堆内存。Apache Spark是一个快速、通用的大数据处理框架，它通过将数据存储在内存中进行高效的计算。在Spark中，堆内存主要用于存储数据和执行计算任务。

Spark的内存管理模型中包括堆内存和堆外内存。堆内存用于存储RDD（弹性分布式数据集）的数据和执行计算任务所需的中间结果。而堆外内存则用于存储RDD的元数据信息和执行shuffle操作所需的数据。

当需要缓存数据时，Spark会将数据存储在堆内存中，以便在后续的计算任务中重用。缓存数据可以提高计算性能，避免重复计算。但如果不需要缓存数据，Spark不会重用堆内存，而是在每次计算任务完成后释放堆内存。

需要注意的是，即使不需要缓存数据，Spark仍然会使用堆内存来存储计算任务的中间结果。这是因为Spark的计算模型是基于RDD的，计算任务通常涉及多个转换操作，每个转换操作都会生成一个新的RDD。这些中间结果需要存储在堆内存中，以便在后续的计算任务中使用。

总结起来，如果不需要缓存数据，Apache Spark会在每次计算任务完成后释放堆内存，但仍会使用堆内存来存储计算任务的中间结果。这样可以保证计算的高效性和准确性。

页面内容是否对你有帮助？

有帮助

没帮助

如果不需要缓存，apache spark会重用堆内存吗？

、

如果我的spark 2.x应用程序不需要缓存，我被建议将spark.storage.fraction设置为零。如果没有缓存，spark难道不知道要重用那个空间吗？我真的应该告诉它缓存专用空间应该重新用于处理吗？

浏览 18提问于2020-10-02得票数 0

3回答

如何找到spark RDD/Dataframe大小？

、、

我知道如何在scala.But中找到文件大小如何在spark中找到RDD/dataframe大小？.toString()}val distFile = sc.textFile(file)但如果我处理它

浏览 4提问于2016-01-26得票数 45

回答已采纳

1回答

星火如何处理部分缓存/持久化结果？

如果您缓存的数据集非常大，不能全部存储在内存或磁盘上，那么stored如何处理部分缓存？当您再次使用该数据时，它如何知道需要重新计算哪些数据？示例：如果spark只能容纳50 go的df2缓存，那么如果在接下来的步骤中重用df2会发生什么呢？如何激发知道哪些数据不需要重新计算，哪些数据需要重新计算？它是否需要重新读取那些不能持久的数据呢？

浏览 2提问于2021-02-24得票数 0

1回答

缓存RDDs的缺点是什么？

、、

我们最近开始缓存多次重用的RDD，即使这些RDD不需要很长时间来计算。那么过度缓存RDDs有什么缺点吗？我在想，也许将所有反序列化的数据放在内存中会给GC带来更大的压力，但这是我们应该担心的事情吗？

浏览 1提问于2018-10-26得票数 1

1回答

我有一个Spark作业，正在生成一组统计结果。我的工作项目数量超过了从属数量。因此，我正在为每个从设备执行多个处理。我在生成RDD对象后写入结果，以便能够重用它们，因为我有多个写操作:一个用于结果对象，另一个用于统计数据。这两种写操作都使用saveAsHadoopFile。在没有缓存的情况下，Spark每次写操作都会重新运行作业，这需要很长的时间，并且会重复执行两次相同的操作(如果我有更多的写操作，会执行更多)。有了缓存，我就达到了内存</e

浏览 14提问于2017-02-28得票数 0

回答已采纳

2回答

使用Spark框架实现大文件上传

、

我正在尝试使用将大文件上传到web应用程序，但遇到内存不足错误。看起来spark正在内存中缓存请求正文。我想要么将文件上传缓存到磁盘上，要么将请求作为流读取。我尝试过使用Apache Commons FileUpload的，但似乎调用request.raw().getInputStream()会导致Spark将整个正文读取到内存中，并返回该内存块的InputStream有什么方法可以改变这种行为吗？

浏览 1提问于2016-04-06得票数 0

2回答

"spark.yarn.executor.memoryOverhead“和"spark.memory.offHeap.size”的区别

、

我不明白以下设置spark.yarn.executor.memoryOverhead和spark.memory.offHeap.size之间有什么区别。两者似乎都是将堆外内存分配给火花执行器的设置。此外，建议为executor for内存设置什么？非常感谢！

浏览 4提问于2019-11-01得票数 6

1回答

SPARK java.lang.OutOfMemoryError:内存不足，无法构建表并将其广播到所有工作节点

、、、

-1 or increase the spark driver memory by setting spark.driver.memory to a higher value...spark是否会广播它从活动中心获得的所有内容？azure storage condition1 && ) } 更新:它看起来像是JVM内存不足错误https://

浏览 132提问于2019-12-23得票数 0

1回答

查询完成后，如何在apache演练上释放堆内存？

、、

问题很简单，每次我查询钻头时，堆内存都在不断地积累。我的堆内存是7 GB，但没有刷新。每隔15分钟，我就必须关闭钻头并再次启动它，以清除堆内存。当前的Config： -)我正在单节点上运行apache演练。查询是在演练时使用R包“军士”执行的，通常情况下，拼花文件是目标文件。当前操作系统是windows 7 Enterprise。构建查询然后执行查询的体系结构是一种架构选择，因为我们希望应用程序能够在不同的查询引擎之间切换，如sql、hive、spark</em

浏览 0提问于2019-09-28得票数 1

回答已采纳

3回答

PySpark数据帧性能调整

、

我持久化了数据帧并在每次聚合后重新划分输出；但我需要它更快，如果有什么不同的话，那就是这些东西减慢了它的速度。我们每天都有20TB+的数据，所以我认为如果数据要被多次读取，那么持久化数据会让事情变得更快，但事实并非如此。非常感谢!

浏览 0提问于2020-04-23得票数 0

1回答

其中星火在洗牌前存储中间结果/分区

、

我认为spark会将分区溢出到磁盘中。在这种情况下，与缓存的代码有什么不同？args(0)).flatMap(_.split(' ')).map((_, 1)).cache() 即使我缓存了令牌化的rdd，shuffle还会继续洗牌吗？

浏览 2提问于2016-02-11得票数 2

1回答

为什么我必须明确地告诉火花要缓存什么？

、

在星火中，每次我们在RDD上执行任何操作时，RDD都会被重新计算.因此，如果我们知道RDD将被重用，我们应该显式地缓存RDD。比方说，Spark决定延迟缓存所有RDD，并使用LRU自动将最相关的RDDs保存在内存中(这是大多数缓存的工作方式)。这将对开发人员有很大帮助，因为他不需要考虑缓存和集中精力于应用程序。另外，我不知道它如何对性能产生负面影响，因为很难跟踪一个变量(RDD)在程序中使用了多少次，大多数程序员将决定以任何方式<em

浏览 4提问于2015-12-06得票数 7

回答已采纳

1回答

在高速缓存销毁后，点燃不会释放内存

、、、、

缓存配置如下：<property name="configuration"><property name="baseDirectory" value="..." /> </property>

浏览 5提问于2016-01-29得票数 0

回答已采纳

1回答

用缓存扩展堆内存

、

我使用的是v2.4.4，据我所知，纱线内存开销(用于执行器)是由我的Spark程序(外部JVM)分配的任何堆外内存。我所知道的唯一额外的“非相关”堆内存是Python内存，它不是星火的内存开销的一部分。off堆内存。由于在默认情况下禁用了off堆模式(spark.memory.offHeap.use)，哪些方案可能会导致内存开销的扩展，以及为什么

浏览 5提问于2021-03-08得票数 3

回答已采纳

2回答

为什么火花sql查询的执行时间在第一次和第二次执行之间是不同的？

、

我在一台机器上运行一个主程序和一个从机(4个核，16G内存)。使用spark，我运行了spark命令：spark.time(spark.sql("SELECT location, sum(counter_2)+sum(counter_6)+sum(coun

浏览 0提问于2019-04-06得票数 3

2回答

星星之火SQL性能

、、、、

JavaSQLContext sqlContext = new org.apache.spark.sql.api.java.JavaSQLContext(jsc); WHERE column3 = 'value2' ") List<org.apache.spark.sql.api.java.RowretRDD=sqlContex

浏览 6提问于2014-12-25得票数 7

回答已采纳

2回答

火花驱动存储器和执行器存储器

、、、

我是Spark的初学者，我正在运行我的应用程序，从文本字段读取14 am的数据，进行一些转换和操作(收集，collectAsMap)，并将数据保存到数据库下面是我用来运行应用程序的命令。bin/spark提交--类com.myapp.application --主控本地*--执行器-内存2G -驱动程序-内存4G /jars/application.jar 2017-

浏览 5提问于2017-01-14得票数 12

1回答

在Spark* 1.6.0上，获取与spark.driver.maxResultSize相关的org.apache.spark.SparkException*

、、

错误：我在调用spark-shell时遇到了这个异常sqlContext.cacheTable("TableName") sqlContext.sq

浏览 0提问于2016-04-27得票数 3

1回答

针对缓存表的Spark* SQL分区修剪*

、、、、

在apache spark中是否为缓存的TempTables启用分区修剪？如果是，我该如何配置它？ .write.partitionBy("installationName","tag").mode("overwrite").parquet(config.output) 我使用Sparkval

浏览 21提问于2017-02-10得票数 0

1回答

MapPartitions上的垃圾收集问题

、

另外，有没有人对追踪/解决spark中的GC问题有什么一般的建议？

浏览 4提问于2016-01-30得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如果不需要缓存，apache spark会重用堆内存吗？

相关·内容

如果不需要缓存，apache spark会重用堆内存吗？

如何找到spark RDD/Dataframe大小？

星火如何处理部分缓存/持久化结果？

缓存RDDs的缺点是什么？

Spark在工作进程内写入文件

使用Spark框架实现大文件上传

"spark.yarn.executor.memoryOverhead“和"spark.memory.offHeap.size”的区别

SPARK java.lang.OutOfMemoryError:内存不足，无法构建表并将其广播到所有工作节点

查询完成后，如何在apache演练上释放堆内存？

PySpark数据帧性能调整

其中星火在洗牌前存储中间结果/分区

为什么我必须明确地告诉火花要缓存什么？

在高速缓存销毁后，点燃不会释放内存

用缓存扩展堆内存

为什么火花sql查询的执行时间在第一次和第二次执行之间是不同的？

星星之火SQL性能

火花驱动存储器和执行器存储器

在Spark* 1.6.0上，获取与spark.driver.maxResultSize相关的org.apache.spark.SparkException*

针对缓存表的Spark* SQL分区修剪*

MapPartitions上的垃圾收集问题

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐