Apache Spark mapPartition奇怪的行为(惰性评估？)

、

我正在尝试使用如下代码(在Scala中)记录每个mapPartition操作在RDD上的执行时间： val startTime = Calendar.getInstancePartition time "+(startTime-endTime)+ "ms")} 问题是，在开始执行map操作之前，它会立即记录“分区时间”，所以我总是会得到一个像2毫秒这样的时间我通过观察Spark Web UI注意到了

浏览 0提问于2017-08-02得票数 1

回答已采纳

1回答

火花累加器在ML库变换中的应用

、

我读到Spark累加器应该只在动作中使用，而不是在转换中使用，因为Spark只能保证add方法在动作中被调用一次。但是，通过查看Apache Spark repo中的高斯混合实现，例如，我可以在trainImpl方法中看到在mapPartition转换中使用logLikelihoodAccum。我的问题是:这样做有多糟糕？我还想在转换中使用累加器，并且我想首先评估风险。

浏览 23提问于2021-01-07得票数 0

1回答

在纱线集群上分配sparkContext错误

、

我的代码在本地模式下工作，但在yarn (客户端或集群模式)下，它停止了，并显示以下错误： Exception in thread "main" org.apache.spark.SparkException(TID 6, hadoopdatanode, executor 1): java.io.IOException: java.lang.NullPointerException at org.apache.spark.util.Utils$.tryOrIOException

浏览 27提问于2019-02-27得票数 0

回答已采纳

1回答

java.io.NotSerializableException:在spark中执行mapPartition()时的org.apache.spark.InterruptibleIterator

、、、、

我正在尝试对示例数据执行简单的Spark转换mapPartition()。这是我的例外：Serialization stack::111) at org.apache.

浏览 3提问于2016-12-06得票数 2

1回答

Apache Spark中的惰性评估

、

我正在尝试理解Apache spark中的延迟计算。我的理解是：步骤： 1)首先我将创建RDD1，它现在只是一个数据定义(现在没有数据加载到内存中)。所以当我执行这个操作的时候，我期望从内存中输出一些东西，然后spark将数据加载到内存中，创建RDD1，2和3，并产生输出。因此，spark的RDDs的懒惰意味着继续制定路线图(RDDs)，直到他们没有获得生产或生产的批准。

浏览 2提问于2018-03-04得票数 1

1回答

火花2.x -如何生成简单的解释/执行计划

、、

我希望在Spark2.2中生成一个解释/执行计划，并在dataframe上执行一些操作。这里的目标是确保分区修剪在开始作业和使用集群资源之前按预期进行。我在这里尝试了Spark文档搜索和SO搜索，但是找不到适合我情况的语法。下面是一个简单的示例，其工作原理与预期相同：== Physical Plan ==List(1, 2,

浏览 4提问于2018-05-29得票数 3

3回答

Ruby计算fetch中的默认值，即使在找到键时也是如此。

h = {a: "foo"}产率key not found: :b 即使找到了键，Ruby计算默认值似乎也很奇怪吗？有办法绕道吗？编辑:很明显，这种行为属于懒惰和渴望评估的范式。几乎所有命令式语言都使用急切的计算，而许多函数式语言则使用惰性的计算。然而，有些语言，如Python (上周之前是我所知道的唯一语言)，对于某些操作具有惰性的评估

浏览 4提问于2017-05-05得票数 3

回答已采纳

1回答

Spark -不收集数据的数据集之间的迭代

、、、、

在代码的某个时刻，我有两个不同类型的数据集。我需要一个人的数据来过滤数据到另一个人。假设从这一点上没有办法改变代码，有没有办法在不从report2Ds收集所有数据并在Spark函数中使用它的情况下完成我在下面的注释中描述的事情？data from report2Ds where report2.getEmployeer().equals(company); }, kryo(Report3.class)); 任何建议，甚至在更好的设计上的帮助，以避免这

浏览 14提问于2019-02-28得票数 1

回答已采纳

1回答

Spark Streaming:通过接收到的流密钥从HBase读取？

、、、、

将Spark Streaming中接收的数据与HBase中的现有数据进行比较的最佳方式是什么？我们从kafka接收数据作为DStream，在将其写到HBase之前，我们必须根据从kafka接收到的密钥扫描HBase中的数据，进行一些计算(基于每个密钥的新数据和旧数据)，然后写到HBase。Spark Connector基于键读取和左连接到新数据，以此作为过滤当前微批中不存在的键的一种方式。问题:使用上面的方法从接收到

浏览 32提问于2021-02-09得票数 1

回答已采纳

1回答

火花作业不返回一致的结果

、、

我有一个scala作业，它为给定的间隔选择一个分数。我对同一组数据运行了3次，每次我得到的分数都略有不同。我的分数是在一个包含一个Seq的UDF中选择的，以及要评估多少个分数。目前我只是评估一个分数，所以它应该只是返回最高的分数，但我没有看到一个一致的高分数返回。我不知道为什么会发生这种情况，任何帮助都将不胜感激，如果需要的话，我可以添加更多的信息。pushdown predicates to get filtere

浏览 2提问于2021-04-29得票数 0

1回答

将json对象文件保存为json数组，而不是s3上的json对象

、、、、

我正在尝试将DF保存为s3上的json格式。它被保存为json对象文件，但是我想要json数组文件。= "applymapping1") applymapping2 = applymapping1.toDF() applymapping2.coalesce(1).write.format("org.apache.spark.sql.json

浏览 8提问于2019-04-23得票数 0

2回答

Rails (4)子模型返回所有记录的作用域

、、

Comment scope :created_desc, :order => "created_at DESC"我要寻找的行为是能够根据创建的范围对文章的注释进行排序不过，这段代码 article.comments.created_desc SELECT "comments&q

浏览 2提问于2013-07-30得票数 0

回答已采纳

1回答

通用状态管理

、、、、

以下是我现在所处的位置： stream: DStream[(String, String)], ) =}user6910411通过使用Class

浏览 1提问于2017-01-06得票数 1

回答已采纳

1回答

如何在Apache* Spark中记录惰性评估数据帧？*

、

如何在Spark应用程序中进行日志记录，而不触发logger语句中的操作？我希望能够做一些如下的事情： df = df .logInfo("value is " + col("xyz)); 这在Java中是可能的吗？

浏览 18提问于2021-10-12得票数 0

2回答

在应用和编写多个转换时只读取一次星火流源

、、、、

我正在尝试使用Spark结构化流来实现以下流： source_df = s

浏览 7提问于2022-05-30得票数 2

1回答

火花作业陷入局部模式

我试图在IDE中使用评估表达式查看正在发生的事情，并注意到了一个奇怪的问题。org.apache.spark.rdd.RDD$$anonfun$map$1.apply(RDD.scala:324)at org.apache.spark.rdd.RDD.map(RDD.scala:323) at org.<

浏览 1提问于2018-03-15得票数 1

1回答

在驱动程序代码中使用不可序列化对象时出现序列化错误

，我得到了以下错误(尽管一切看起来都很好)： at org.apache.spark.util.ClosureCleaner:158) at org.apache.spark.rdd.RDD.m

浏览 1提问于2015-06-10得票数 1

回答已采纳

1回答

如何在Spark* worker节点中连接到NEO4J？*

、、、

我需要在spark map函数中得到一个小的子图。我试过使用AnormCypher和NEO4J-SPARK-CONNECTOR，但都不起作用。AnormCypher将导致java IOException错误(我在mapPartition函数中构建连接，在本地主机服务器上测试)。在Spark worker节点中有没有一个很好的方法来获得一个子图(或者连接到neo4j这样的图形数据库)？Exception in thread "main" org.<em

浏览 7提问于2017-03-09得票数 2

1回答

运行pyspark svm模型时CPU使用率较低

、、

我正在尝试在非常非常大的数据集上运行svm，而我无法使用sklearn来运行它。使用sklearn需要无尽的时间。所以我决定使用pyspark这里是我的spark配置 [('spark.app.id', 'local-1606562652917'), ('spark.app.name', 'S

浏览 80提问于2020-11-28得票数 0

1回答

Dataset#persist()是终端操作吗？

、

当org.apache.spark.sql.Dataset#persist()被调用时，spark是否真的缓存了Dataset？

浏览 11提问于2017-03-01得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

火花累加器在ML库变换中的应用

在纱线集群上分配sparkContext错误

java.io.NotSerializableException:在spark中执行mapPartition()时的org.apache.spark.InterruptibleIterator

Apache Spark中的惰性评估

火花2.x -如何生成简单的解释/执行计划

Ruby计算fetch中的默认值，即使在找到键时也是如此。

Spark -不收集数据的数据集之间的迭代

Spark Streaming:通过接收到的流密钥从HBase读取？

火花作业不返回一致的结果

将json对象文件保存为json数组，而不是s3上的json对象

Rails (4)子模型返回所有记录的作用域

通用状态管理

如何在Apache* Spark中记录惰性评估数据帧？*

在应用和编写多个转换时只读取一次星火流源

火花作业陷入局部模式

在驱动程序代码中使用不可序列化对象时出现序列化错误

如何在Spark* worker节点中连接到NEO4J？*

运行pyspark svm模型时CPU使用率较低

Dataset#persist()是终端操作吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐