Spark SQL作业的Spark修复任务编号

、

我一直看到Apache Spark安排了一系列阶段，涉及200个固定任务。由于这种情况经常发生在许多不同的工作中，我猜这可能与Spark的一种配置有关。有什么建议是什么配置吗？

浏览 3提问于2016-08-09得票数 0

回答已采纳

1回答

Apache气流SparkSQLOperator一直打印空日志

、

作业成功地给出了正确的编号，但作业一直打印空白日志，如下所示，因此无法成功地停止： 2018-05-16 06:33:07,505 {base_task_runner.py:98} INFO -子任务05-16 06:33:07,506 {base_task_runner.py:98} INFO -子任务: 2018-05-16 06:33:07,506 {spark_sql_hook.py:1422018-05-16 06:33:07,509 {b

浏览 1提问于2018-05-16得票数 0

回答已采纳

3回答

为什么在S3存储桶中加载CSV文件会有大量的任务？

、、

我有一个带有动态资源分配的小型spark独立集群，它使用aws作为存储，然后我启动一个spark s3，创建一个从s3存储桶中779.3KB的csv文件加载数据的hive外部表，当我执行sql "selectcount(1) from sales;“时，spark sql作业中恰好有798009个任务，就像每个字节的任务一样。"spark.de

浏览 3提问于2019-01-21得票数 1

2回答

如果可以获得Spark中的分区计数，为什么无法确定数据帧中的分区？

、、

使用df.rdd.getNumPartitions()，我们可以获得分区的数量。但是我们如何获得分区呢？我阅读了，并推断Spark不知道分区键。我的疑问是，如果它不知道分区键，因此不知道分区，它怎么知道它们的计数呢？如果可以，如何确定分区？

浏览 0提问于2020-06-18得票数 0

1回答

如何在另一个模块中使用相同的spark会话

、、、、

我必须用两个任务在Airflow中运行两个模块。每个任务都有一个执行一些spark操作的PySpark模块。第二个模块使用在前一个会话中创建的数据帧并继续其操作。同样的SparkSession初始化，如何实现同样的效果？我尝试使用getActiveSession()，但由于任务1作业已完成，因此无法工作，因此当任务2运行时，会创建一个新的spark会话。- [root@ ..dag

浏览 32提问于2021-11-23得票数 0

2回答

在web的星火作业中，ThreadPoolExecutors作业是什么？

、

看一下星星之火UI，我发现有一些作业的描述是“运行在ThreadPoolExecutor.java:1142”我想知道为什么有些火花工作会得到这样的描述？

浏览 3提问于2016-11-28得票数 24

回答已采纳

2回答

为什么在按组操作期间我的洗牌分区不是200(默认的)？(火花2.4.5)

、、

我是新的火花，并试图理解它的内在。因此，我从s3读取一个小的50 to的拼板文件，然后按组执行，然后保存回s3。当我观察Spark时，我可以看到为此创建的3个阶段，第1阶段:分组的洗牌阶段(12项任务)代码示例： df = spark.read.format所以，默认的并行性是12，我不会在运行时更改任何配置

浏览 2提问于2020-08-06得票数 5

回答已采纳

1回答

是什么决定了Spark中操作的映射器和减法器的数量

我正在阅读，这篇文章谈到了基于映射器和reducers任务的数量生成的文件数量。你能帮帮我吗。

浏览 2提问于2018-11-16得票数 0

1回答

Apache Spark:是否可以在spark作业中获取数据集计数？

有时，在集群中运行的一些Spark作业运行得太长，不是因为糟糕的优化，而是因为算法的糟糕逻辑。在大多数情况下，这是由于一些不必要的连接产生了太多的行造成的。通常，我们通过查看Spark执行计划来发现这样的作业，我们可以通过查看蓝色阶段标签中的“输出行数: xxx”来找到这样的连接。我想知道--有没有可能优化这个过程，并以某种方式自动通知程序员，作业</em

浏览 4提问于2021-10-29得票数 0

1回答

星火KryoException:找不到类: CassandraSQLRow

、、、

当我运行Spark作业(scala脚本)时，我得到以下错误： 16/03/08 10:22:03 INFO DAGScheduler:作业0失败:在JsonRDD.scala:57接受了15.051150s的异常:在线程"main“org.apache.spark.SparkException:由于阶段失败而中止的作业:阶段1.0中的任务1失败1次，最近的失败:在阶段1.0中丢失<em

浏览 1提问于2016-03-08得票数 1

回答已采纳

1回答

如何检索从Spark中编写的输出大小和记录之类的度量？

、、、、

如何在任务或作业完成后在控制台( Shell或submit作业)上收集这些指标。我们使用Spark将数据从Mysql加载到Cassandra，这是相当大的(例如:200 GB和600 m行)。当任务完成时，我们要验证到底有多少行触发了进程？我们可以从Spark中获得号码，但是我们如何从火花外壳或火花提交作业中检索这个数字(“输出记录编写的”)。dbtable", "payment_types").opt

浏览 0提问于2016-04-27得票数 11

回答已采纳

2回答

火花急流不加载( CSV不支持文件格式错误，拼板没有错误)

、、

我正在使用一个带有2xNVidia A100 GPU的Ubuntu20.04.4服务器。Spark (3.3.0)正常工作，但是当我试图通过RAPIDS使用GPU时，它只是一直在等待，而没有加载数据。我试着以CSV和parquet文件的形式加载数据，但是失败了。我正在调用GPU的当前方式如下所示，尽管我尝试了许多在互联网上可以找到的组合。我还使用spark-submit提交作业，这导致了如下所示的问题。如能帮助纠正这些错误，我将不胜感激。=============| |

浏览 7提问于2022-08-08得票数 0

回答已采纳

1回答

Spark作业即使失败也能成功

我运行了一个spark作业，它从两个来源获取输入，例如: /home/hadoop/base/hourly/{input1/20190701/，input2/20190701/} 问题是这两种结构有不同的模式我的情况是，spark作业的最终状态是成功的，但由于该问题而不处理该数据。由于成功的状态，这个问题在我们的集群中被忽略了一

浏览 0提问于2019-07-12得票数 2

1回答

数据库SparkException超过spark.driver.maxResultSize

、、、、

目的是处理5.5TB的数据import org.apache.spark.sql.SparkSession import org.apache.spark.sql</em

浏览 3提问于2020-11-02得票数 0

回答已采纳

1回答

为什么一个动作会产生两个工作？

、、

我使用Spark2.1.0。val path = "/usr/lib/spark/examples/src/main/resources/people.txt"peopleDF.show() 我在检查发生什么的时候

浏览 3提问于2017-06-06得票数 2

回答已采纳

1回答

如何在sparkcontext.parallelize(.......).map()内部执行配置单元查询？

、

<init>(Dependency.scala:91) at org.apache.spark.sql.execution.exchange.ShuffleExchange.prepareShuffleDependency(ShuffleExchange.scala:84)

浏览 4提问于2018-12-17得票数 1

1回答

使用在内部定义了udf的模块冻结pyspark作业-解释？

、、

情况是这样的：我们有一个模块，在其中我们定义了一些返回pyspark.sql.DataFrame (DF)的函数。为了获得这些DF，我们使用在同一文件或助手模块中定义的一些pyspark.sql.functions.udf。问题是，当我们这样做时，udf函数冻结了我们的工作。我们发现的令人讨厌的修复方法是在作业中定义udf函数，并将它们提供给从我们的模块导入的函数。我找到

浏览 12提问于2017-07-14得票数 9

1回答

fail显示火花放电

、、、、

pip install Pysparkfrom pyspark.sql import SparkSessionpdf = pd.read_excel("xxxx.xlsx", sheet_name='Input (I)')df.show()：org.apache.spark.SparkExc

浏览 1提问于2021-11-04得票数 0

1回答

运行TPCDS基准测试数据集时的火花错误-无法找到dsdgen

、

当我运行这个： scala> [troberts@master1 spark-sql-perf]$ spark-shell --master yarn --deploy-mode cliers /home/troberts/spark-sql-perf/target/scala-2.11/spark-sql-perf_2.11-0.5.1-SNAPSHOT.jar -i TPCDPreparation.s

浏览 0提问于2020-03-28得票数 2

回答已采纳

1回答

YARN申请的资源处于非活动状态，其他作业会使用吗？

、、

我运行了一个spark任务，在纱线上分配了大量的资源，而且这个任务持续了很长时间。最后，spark作业的任务只是活动的一个核心和两个核心。我想知道不活跃的资源是不是可以被其他spark工作或mr工作使用。或者只完成第一个spark作业，资源就可以被其他作业使用。

浏览 12提问于2021-08-09得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Apache气流SparkSQLOperator一直打印空日志

为什么在S3存储桶中加载CSV文件会有大量的任务？

如果可以获得Spark中的分区计数，为什么无法确定数据帧中的分区？

如何在另一个模块中使用相同的spark会话

在web的星火作业中，ThreadPoolExecutors作业是什么？

为什么在按组操作期间我的洗牌分区不是200(默认的)？(火花2.4.5)

是什么决定了Spark中操作的映射器和减法器的数量

Apache Spark:是否可以在spark作业中获取数据集计数？

星火KryoException:找不到类: CassandraSQLRow

如何检索从Spark中编写的输出大小和记录之类的度量？

火花急流不加载( CSV不支持文件格式错误，拼板没有错误)

Spark作业即使失败也能成功

数据库SparkException超过spark.driver.maxResultSize

为什么一个动作会产生两个工作？

如何在sparkcontext.parallelize(.......).map()内部执行配置单元查询？

使用在内部定义了udf的模块冻结pyspark作业-解释？

fail显示火花放电

运行TPCDS基准测试数据集时的火花错误-无法找到dsdgen

YARN申请的资源处于非活动状态，其他作业会使用吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐