如果对中间结果应用了两个不同的转换，spark是否会重新计算中间结果？

Spark不会重新计算中间结果，因为Spark使用了弹性分布式数据集（RDD）来进行计算，RDD具有容错性和可恢复性。在Spark中，如果对中间结果应用了两个不同的转换，Spark会将每个转换操作都记录下来，而不是立即执行。当后续的操作需要使用到中间结果时，Spark会根据依赖关系直接从已经计算过的中间结果中获取数据，而不需要重新计算。

这种延迟计算的特性可以提高Spark的性能和效率，因为它能够避免重复计算。同时，Spark还支持基于血缘关系的容错机制，即使在计算过程中发生故障，Spark也可以通过重新执行丢失的转换操作来恢复丢失的中间结果，从而保证计算的正确性和可靠性。

对于以上问答内容中提到的中间结果应用两个不同的转换的情况，Spark会根据这两个转换的依赖关系来判断是否需要重新计算中间结果。如果这两个转换之间存在依赖关系，并且中间结果没有被缓存或持久化，则Spark会重新计算中间结果；如果这两个转换之间没有依赖关系，或者中间结果已经被缓存或持久化，则Spark可以直接使用已经计算过的中间结果，而不需要重新计算。

总之，Spark的延迟计算和容错机制可以提高计算性能和可靠性，同时也减少了不必要的计算开销。

页面内容是否对你有帮助？

有帮助

没帮助

如果对中间结果应用了两个不同的转换，spark是否会重新计算中间结果？

、

假设我们从一些数据开始，得到一些中间结果df_intermediate。在从源数据到df_intermediate的管道中，所有转换都是惰性的，实际上不会进行任何计算。然后，我想对df_intermediate执行两种不同的转换。例如，我想使用两个不同的命令来计算df_intermediate.agg({"col":"

浏览 12提问于2020-04-23得票数 0

回答已采纳

1回答

缓存中间结果火花

我以RDD的形式从数据库读取大量记录，并执行不同的操作。据我所知，Spark将在转换后自动释放中间RDD数据。如果我们引用程序的中间部分RDD，它会从源代码中再读一遍。这是否意味着它将再次从数据库读取数据？无论如何，工具可以告诉我们哪种中间结果应该被缓存以获得更好的结果？

浏览 1提问于2018-04-04得票数 1

1回答

Apache如何实现洗牌阶段？

、、

我想知道Apache是如何实现洗牌阶段的。它是否使用与MapReduce相同的技术？rddA.map1.groupByKey();rddY = rddB.map4.map5.saveAsTextFile(); 它是否执行map1，然后按键进行分区，并将中间数据保存在磁盘(内存)上？然后读取中间文件2次，一次用于map2 map3分支，另一次用于map4 map5，而无需再次计算rddB，即

浏览 1提问于2015-04-21得票数 0

回答已采纳

2回答

Spark能否自动检测不确定的结果并相应地调整故障恢复？

如果不确定的代码在Spark上运行，当需要从节点故障中恢复时，这可能会导致问题，因为新输出可能与旧输出不完全相同。我的解释是，在这种情况下，整个作业可能需要重新运行，因为否则输出数据可能与自身不一致(因为不同的数据是在不同的时间产生的)。至少，恢复节点下游的任何节点都可能需要从头开始，因为它们已经处理了现在可能更改的数据。这就是我对情况的

浏览 0提问于2018-10-25得票数 1

1回答

在计算结束之前，Livy返回

、、

在Hortonworks Sandbox上与Livy一起工作时，我们发现了这样一个问题:在某些情况下，Livy API会在Spark监控工具指示的实际工作结束之前为语句提供结果。在某些情况下，对于正常执行时间超过10分钟的作业，Livy只需不到5秒就能提供结果。如果我们用相同的初始条件多次重复相同的任务，在某些情况下我们已经看到了这个问题的发生。有什么想法吗？

浏览 0提问于2017-02-16得票数 0

1回答

我正在阅读，我不明白这意味着什么，星火的洗牌输出被写入磁盘。见第8章，调优和调试火花，第148至149页：如果现有的RDD已经在集群内存或磁盘上持久化，火花的内部调度程序可能会截断RDD图的沿袭。这种截断可能发生的第二种情况是，RDD已经成为早期洗牌的副作用，即使它没有显式地持久化。这是一种底层优化，它利用了这样一个事实，即Spark输出被写入磁盘，并且利用了这样一个事实: RDD图的许多部分被

浏览 2提问于2016-12-03得票数 6

回答已采纳

2回答

如何在Spark应用程序中进行有效的日志记录

、、

我有一个用Scala编写的spark应用程序代码，它运行一系列Spark-SQL语句。这些结果是通过在最后对最终数据帧调用操作'Count‘来计算的。我想知道在Spark-scala应用程序作业中进行日志记录的最佳方式是什么？由于数量上的所有数据帧(大约20个)最终都是使用单个操作来计算的，那么在记录某些语句的输出/序列/成功时，我有

浏览 22提问于2019-09-03得票数 4

1回答

使用Kubernetes设置Delta Lake

、

是否有任何在线链接或文档可以作为设置Delta Lake (没有Databricks Runtime)与Kubernetes一起使用的指南？

浏览 4提问于2021-11-16得票数 0

2回答

如何在RDD管道转换操作后执行代码

、

在我的sparkJob中，我执行了几个转换和聚合操作。我需要在管道操作之前和之后通知服务。具体地说，参考下面的代码，我需要在RDD中的所有文档上完成“管道操作1”之后，在“管道操作2”开始之前进行一个服务调用。

浏览 0提问于2018-09-27得票数 0

1回答

如何在excel中根据复杂单元格结果进行绘图

因为我不使用宏(我在Mac上)，所以我需要在其他单元格中进行一些中间计算才能得到最终结果。所以问题是:我能以某种方式用A1 (X轴)绘制A2和A3的结果吗？或者用一种不同的方式说，如果我有一个不同的A1值范围(比如1000个值)。我如何才能计算出相应的结果A2和A3，而不需要重复做1000倍的工作？中间计算很

浏览 16提问于2017-08-31得票数 0

回答已采纳

1回答

更改结果的for循环中的奇怪行为

我的代码有个奇怪的问题。下面是上下文:在我的方法中，我创建了一个对象，然后用两个"for循环“填充这个对象的(int)缓冲区。问题是，当我在循环中插入printf以查看缓冲区中的数据时，它会更改缓冲区中的数据。实际上，如果循环中是否有printf，则缓冲区中的结果是不同的bool Mod::Real

浏览 1提问于2014-05-14得票数 0

回答已采纳

1回答

缓存一个大RDD或多个小RDD

、

我有一个大的RDD (R)，我把它切成20个块(C_1，C_2，.，C_20)，这样：如果缓存所需的时间仅取决于RDD的大小(例如，每MB 10秒)，那么缓存单个块更好。但是，我怀疑还有一些我不知道的额外开销，比如寻找时间以防持久化磁盘。写到内存时是否有额外的管理费用？缓存(即在内存中)、大的RDD (R)还是20个单独的块更好？编辑:为了提供更多的上下文，我目

浏览 1提问于2017-12-21得票数 1

回答已采纳

1回答

如何在更改输入后重新计算梯度？Pytorch

、

我试图在不重新定义a= f(x，y)的情况下做这样的事情：find gradient of a with respect to xfind gradient有人知道我如何做到这一点而不需要每次都重新定义原始函数吗？

浏览 0提问于2021-04-29得票数 1

1回答

如何计算离中位数最近的k个数？

、、

我有一个n个成对的不同元素的数组和一个带有1<=k<=n的数字k。我发现中间值：我得到中间的元素，或者如果元素的数量等于中间和圆的两个元素<e

浏览 1提问于2013-01-13得票数 4

3回答

火花-在火花中操作后内存中的数据发生了什么变化？

、、

我的问题是，当我将csv文件作为火花数据文件读取时，我进行如下所示的转换，操作操作后内存中的数据(RAM)发生了什么变化。df = spark.read.csv('example.csv')df1.show() 在show操作之后，内存中的任何中间结果(换句话说，如果我第二次运行df1.show()，火花<

浏览 20提问于2022-10-12得票数 0

回答已采纳

1回答

Spark中的长谱系(DAG)问题

、、

我们通常使用Spark作为存储在S3或HDFS上的数据的处理引擎。我们使用Databricks和EMR平台。我经常面临的一个问题是，当任务规模增长时，工作绩效会严重下降。例如，假设我从五个表中读取数据，这些表具有不同的转换级别(过滤、分解、连接等)，并从这些转换中获得数据的联合子集，然后进行进一步的处理(例如：根据需要窗口函数等的条件删除一些行)，然后是其他一些处理阶段如果

浏览 17提问于2019-10-26得票数 0

回答已采纳

1回答

对于只有整数部分的C#双数，算术总是产生只有积分部分的代数一致的结果吗？

、

在这个网站上有很多很好的答案，解释了在C#双倍加小数部分上做简单的算术运算会导致严重的双相等问题，当对双对象进行加法、减法和乘法(没有除法)时，显然代数上等价的两个计算的结果被视为不相等，但是，如果有两个双数的算术表达式，所有的双数都只有整数部分而没有小数部分，是否还有可能出现严重的双等问题呢？也就是说，只有整数部分的<

浏览 4提问于2021-05-11得票数 1

回答已采纳

3回答

如何在Mathematica中写一个长函数？使用Notebook作为功能？

、

我在Mathematica笔记本的开头定义了一些变量，然后用它来计算我的结果。现在，我想对变量的不同值进行多次相同的计算，并在其他地方使用结果。因此，使用此变量作为参数并将我的notebook的内容作为主体来定义一个新函数会很有用。但是，我将不得不在一个输入行中编写所有内容，并且没有合适的方法来查看中间结果。f

浏览 1提问于2011-12-05得票数 2

回答已采纳

4回答

Excel与C#数字差异

、

有没有人能解释一下，为什么在Excel和C#中使用完全相同的数字时，我会看到非常小的(10^-08)数字差异？我有一个公式，并使用相同的输入。在Excel中我得到一个数字-在C#中我得到另一个数字。

浏览 4提问于2010-02-11得票数 6

1回答

这两种方法是确定性的吗？

、、、

这里讨论的运算是乘法。ONE将被转换为double。然后，两个double值将被乘以。根据C#规范，这可以在更高的精度上实现。然后由long强制转换截断结果。如果在不同的平台上使用不同的精度，结果的long值中最不重要的一点是否有可能有所不同？还是这种方法是完全确定性的？这里我们有double

浏览 22提问于2016-09-07得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如果对中间结果应用了两个不同的转换，spark是否会重新计算中间结果？

相关·内容

如果对中间结果应用了两个不同的转换，spark是否会重新计算中间结果？

缓存中间结果火花

Apache如何实现洗牌阶段？

Spark能否自动检测不确定的结果并相应地调整故障恢复？

在计算结束之前，Livy返回

星火是否将中间洗牌输出写入磁盘？

如何在Spark应用程序中进行有效的日志记录

使用Kubernetes设置Delta Lake

如何在RDD管道转换操作后执行代码

如何在excel中根据复杂单元格结果进行绘图

更改结果的for循环中的奇怪行为

缓存一个大RDD或多个小RDD

如何在更改输入后重新计算梯度？Pytorch

如何计算离中位数最近的k个数？

火花-在火花中操作后内存中的数据发生了什么变化？

Spark中的长谱系(DAG)问题

对于只有整数部分的C#双数，算术总是产生只有积分部分的代数一致的结果吗？

如何在Mathematica中写一个长函数？使用Notebook作为功能？

Excel与C#数字差异

这两种方法是确定性的吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐