尝试更改Spark数据帧中多列中的多个值时，ASW spark作业超时

文章/答案/技术大牛

发布

1回答

、、

作为glue工作的一部分，我正在尝试更改多个列中的多个值。不管怎么说，我写的函数完全超时了。我在函数中添加了注释，以指出问题所在。是什么导致胶合作业不将作业分配给执行者？

浏览 20提问于2021-10-25得票数 0

1回答

由于DeadlineExceededException，Spark作业无法写入Alluxio

、

我正在运行一个Spark作业，写到一个有20个工作者的Alluxio集群(Alluxio 1.6.1)。由于alluxio.exception.status.DeadlineExceededException，Spark作业无法写入其输出。这名工人还活着，来自阿卢西奥WebUI。alluxio.exception.status.DeadlineExceededException: Timeout writing to WorkerNetAddress{host=spark-74domai

浏览 7提问于2018-11-16得票数 2

1回答

Sparklyr on Databricks -在具有多个NaN值的sparklyr数据帧上按行取多列的平均值

、、、、

我正在尝试为sparklyr数据帧创建最小、最大和平均列。我只想在计算中按行使用该大型数据帧中的5列。列中有许多NaN值，这些值可能是计算对象。在标准R中，使用的代码是： df_train$MinEncoding <- spark_apply(df_train,f=min ,columns=[,EncodingFeatur

浏览 13提问于2019-10-15得票数 1

3回答

如何处理spark sql中缺少的列

、、

我们正在处理无模式的JSON数据，有时spark作业会失败，因为我们在spark SQL中引用的一些列在一天中的某些时间内不可用。在这些小时内，spark作业失败，因为所引用的列在数据帧中不可用。我尝试过UDF，但是我们缺少太多的列，所以不

浏览 5提问于2018-08-10得票数 2

2回答

如何在Airflow dag中途成功退出任务？

、

我有一个在FTP服务器上检查文件的dag (airflow在单独的服务器上运行)。如果文件存在，则将文件移动到S3 (我们在此存档)。从那里，文件名被传递给Spark提交作业。spark作业将通过S3 (不同服务器上的spark集群)处理文件。我不确定是否需要多个dags，但流程如下。我要做的是，如果S3存储桶中存在文件，则只运行Spark作业。我尝试</

浏览 1提问于2017-06-24得票数 1

2回答

Spark调度器thershold

、

我在Spark上运行一些分析工具，这会产生大量的开销，所以计算需要更多的时间。当我运行它时，我得到这个错误：问题是-我可以在某

浏览 0提问于2016-08-31得票数 0

4回答

Spark dataframe添加新的列问题-结构化流

、

我正在使用spark Structured。我有一个数据帧，并添加了一个新列"current_ts“。当作业被触发时，它更新相同的epcoh时间，从而使DF中的每一行都具有相同的值。这在正常的spark工作中效果很好。这是spark structured的问题吗？

浏览 1提问于2018-04-01得票数 4

1回答

如何修复来自apache-spark的对等消息导致的连接重置？

、

经过研究，我发现我可以做.set("spark.submit.deployMode", "nio");，但这也不起作用，我使用的是Spark2.0.0 WARN TransportChannelHandler

浏览 2提问于2016-09-06得票数 23

回答已采纳

2回答

Spark中的bucketBy和partitionBy有什么不同？

、、、、

difference .saveAsTable("someTable") 我猜，在第一种情况下，bucketBy创建了4个带有国家的目录，而partitionBy将在“国家”列中创建与多个唯一值一样多的目录。这是正确的理解吗？

浏览 0提问于2021-05-19得票数 0

1回答

使用spark-redis加载数据集时出现问题

、、、

我正在尝试使用spark-redis加载数据集，但操作总是失败。我尝试写入的spark dataframe有8500万行，但写入操作在2500万行之后大致失败。我想知道如何解决这类问题。").option("table", "output_table").option("key.column", "id").option("dbNum", 0).save(); 我正在尝试

浏览 100提问于2021-06-11得票数 2

1回答

将数据帧从spark集群写入cassandra集群:分区和性能调优

、、、、

Cloudera Hadoop- Spark作业在此处运行2.Cloud - Cassandra集群，多个DC<code>A0</code> 在我的多租户spark集群中

浏览 25提问于2020-06-08得票数 1

回答已采纳

1回答

通过连接比较两个pyspark数据帧

、、、

我有两个pyspark数据帧，它们的行数不同。我试图通过在多个键上连接这两个数据帧来比较所有列中的值，这样我就可以找到这些列中具有不同值的记录和具有相同值的记录。df1 and df2 on multiple keys same=df1.join(df2, on=['id','a

浏览 14提问于2021-02-13得票数 0

2回答

在pyspark中读取太多的小文件需要花费很多时间

、、

我已经编写了pyspark作业来加载s3存储桶中存在的文件。在s3中有太多的小文件，我在spark中一个接一个地读文件。我正在一个接一个地读取文件，因为我添加了一个列，该列具有文件所在的存储桶路径的值。由于这个spark作业花费了大量的时间，因为它忙于一个接一个地迭代文件。下面是实现该功能的代码： for filepathins

浏览 7提问于2020-12-08得票数 0

1回答

更改spark* _temporary目录路径，避免删除parquets*

、、

当两个或多个Spark作业具有相同的输出目录时，相互删除文件将不可避免。我正在使用spark 2.4.4在append模式下写入一个数据帧，我想在spark的tmp目录中添加一个时间戳，以避免这些删除。示例：使用其他数据调用

浏览 20提问于2020-03-19得票数 1

2回答

Spark:线程"main“org.apache.spark.sql.catalyst.errors.package中的异常

、

在运行我的spark- my代码时，我在执行时得到了这个错误。我只是好奇地想知道这个TreeNodeException错误是什么。Exception in thread “main” org.apache.spark.sql.catalyst.errors.package

浏览 2提问于2017-10-25得票数 8

3回答

从EMR迁移到AWS Glue后，在Spark* SQL中找不到表*

、、

我在EMR上有Spark作业，并且EMR被配置为对Hive和Spark元数据使用Glue目录。我创建了Hive外部表，它们出现在Glue目录中，我的Spark作业可以在Spark SQL中引用它们，比如spark.sql("select * from hive_table ...")现在，当我尝试在Glue作业中运行相同<em

浏览 29提问于2019-02-09得票数 1

2回答

在spark结构化流中写入来自kafka / json数据源的损坏数据

、、

在spark批处理作业中，我通常会将JSON数据源写入到一个文件中，并且可以使用DataFrame阅读器的损坏列功能将损坏的数据写出到不同的位置，并使用另一个阅读器从同一作业中写入有效数据。(数据写为拼接) 但在Spark Structred Streaming中，我首先通过kafka将流作为字符串读取，然后使

浏览 34提问于2018-12-27得票数 1

回答已采纳

1回答

如何在aws胶水作业中重写couchbase查询超时？

、、、、

我试图使用在aws胶水作业中运行Couchbase查询。(CbN1qlQuery), "bucket-name", Some(Duration(130, SECONDS)))System.setProperty("com.couchbase.env.timeout.queryTimeout",

浏览 8提问于2022-05-17得票数 2

回答已采纳

1回答

使用spark* datastax连接器忽略具有数据帧的空值*

、、、、

我们有一个超过50列的Cassandra模式，我们通过使用Spark (数据帧而不是rdd)转换数据来将来自多个数据源的数据插入到其中。我们遇到了许多墓碑的问题，因为我们的数据是稀疏的。我已经尝试过spark.cassandra.output.ignoreNulls=true，但它不工作。在cassandra

浏览 1提问于2019-08-26得票数 1

1回答

如何使用scala评估Spark中的minHashLSH？

、、、

我有一个学术论文的数据集，它有27770篇论文(节点)和另一个文件(图形文件)，其中的原始边有352807个条目。我想计算minHashLSH来查找相似的文档，并预测两个节点之间的链接！下面你可以看到我尝试用scala在spark上实现这一点。我面临的问题是我不知道如何评估结果！我的结果以nodeAId，nodeBId，JaccardSimilarity的形式出现。它们都是数据帧。如何评估我

浏览 3提问于2019-01-27得票数 0

点击加载更多