热以指定Spark中数据帧联接的任务数

文章/答案/技术大牛

发布

1回答

apache-spark、apache-spark-sql、spark-dataframe

我从SQL DB读取了2个数据帧，每个数据帧都有10个任务。然后，当我使用df1.join(df2)连接它们时，它会为连接操作创建200个任务，而我不明白为什么是200个任务，以及如何更改它？例如，在使用rdd时，像join这样的方法会使用[numTasks]参数，但我在这里找不到对应的方法。有什么原因吗？

浏览 5提问于2018-01-11得票数 2

回答已采纳

1回答

提高读取拼图文件的并行度- Spark优化自连接

apache-spark、optimization、apache-spark-sql、self-join

不幸的是，我不能广播数据帧，因为它们太大了。首先，我聚合元组的数量以减少数据： val aggregated = df.groupBy("discrete_foo", "discrete_bar").agg(sum("value")) aggregated.repartition因此，我还尝试通过重新分区来强制执行更多的任务： val materializedAggregated= s

浏览 21提问于2020-04-07得票数 2

回答已采纳

1回答

火花:连接时设置最大分区大小

apache-spark

在火花中执行联接时，或者一般情况下，对于洗牌操作，我可以设置分区的最大数量，在其中，我希望spark执行此操作。根据文件： spark.sql.shuffle.partitions 200配置用于联接或聚合的数据洗牌时使用的分区数。如果我想降低在每个任务中必须完成的工作量，我必须估计数据的总大小并相应地调整这个参数(更多的分区

浏览 0提问于2018-12-03得票数 2

回答已采纳

1回答

如何在星火中计算内部连接的分区数？

apache-spark、bigdata、aws-glue

我们有两张数据。df_B.createOrReplaceTempView('table_B')""")df_C.rdd.getPartitionsNumber() df_C=spark.sql(“”从table_A inner table_B on (.)table_A# => 160中选择*) 星火如何计算和使用这两个分区为两个连接的数据文件？连接的dataframe<e

浏览 1提问于2021-05-23得票数 2

2回答

加载拼板文件并保持相同数量的hdfs分区

apache-spark、hadoop、pyspark、apache-spark-sql、parquet

中，并保持相同数量的分区。但是，Spark将自动将文件加载到60个分区中。_jsc.hadoopConfiguration().get("dfs.blocksize"))/2**20128 将这些值中的任何一个更改为较低的值并不会导致将拼花文件加载到hdfs中相同数量的分区中jsc.hadoopConfiguration().setInt("dfs.blocksize&

浏览 0提问于2019-06-14得票数 0

1回答

DataFrame有50个分区，没有调用repartitions()方法，在调用repartitions()方法之后，可以根据列创建分区

scala、apache-spark

当尝试创建基于两个列的分区时，Dataframe在调用creates ()方法时会创建50个分区。创建的分区数目相同，而不调用repartitions()方法。创建的分区数目相同，而不调用repartitions()方法。

浏览 0提问于2019-08-21得票数 0

回答已采纳

2回答

Spark中的数据帧列表

java、apache-spark

在Spark中创建数据帧列表是否可取？方法读取x个文件以从中创建x个数据帧。这些数据帧被推送到列表中。此方法从驱动程序调用，并返回通过在列表中联接数据集而创建的单个数据框。创

浏览 11提问于2019-07-13得票数 1

1回答

从MySQL数据库生成JSON结果，任务记录每天的总记录数是多少？

javascript、php、mysql、json

当你在广场上悬停时所显示的颜色和项目数将是当天在该任务记录上执行的活动总数。因此，在2015年6月17日，如果对一个任务进行了5次评论，并更新了指定的用户字段。它将在生成的热图上显示当天广场<e

浏览 0提问于2015-06-17得票数 0

回答已采纳

1回答

当我使用DataFrame.show()时，它是这样的：INFO scheduler.TaskSetManager: Finished task 1.0 in stage 3.0 (TID 5) in但是当我使用DataFrame.groupBy()时，它得到的任务很多，就像这样：INFO scheduler.TaskSetManager: Finished task 83.0 in stage 15.0我的源代码在这里。任何帮助都是有用的。

浏览 17提问于2017-08-23得票数 0

回答已采纳

1回答

左连接错误: org.apache.spark.sql.AnalysisException:检测到隐式笛卡尔乘积

scala、apache-spark、apache-spark-sql

"left join“需要在一个数据帧上使用"spark.sql.crossJoin.enabled=true”或调用"persist()“。SELECT * FROM LHS left join RHS on LHS.R = RHS.R 如何在没有"spark.sql.crossJoin.enabled=true“和持久化数据帧的情况下使”下面的例外发生在Spark 2.3.3和2.4.4中。

浏览 0提问于2019-09-07得票数 0

3回答

星火数据加入问题

scala、apache-spark、hbase

:由于阶段失败而中止的作业:56个任务(1024.4 MB)的序列化结果的总大小大于spark.driver.maxResultSize (1024.0 MB) 然后我添加了spark.driver.maxResultSize如果我在Manager中观察到内存的使用情况，我就会发现使用率一直在上升，直到达到50 up，此时发生OOM错误。因此，无论出于什么原因，用于执行此操作的RAM数量比我试图使用的RDD大小大10倍。如果我在内存和

浏览 1提问于2019-03-10得票数 3

1回答

将MySQL更新语句转换为Amazon

aws-glue

我有一个python脚本，它使用MySQL从CSV文件中清除一些数据。我想把这个脚本变成Glue可以使用的东西，但是我不知道Glue可以使用的SQL语法。这是我需要修改的python / mysql脚本中的语句： SET identity_LineItemI

浏览 1提问于2019-09-05得票数 0

回答已采纳

2回答

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别？

performance、apache-spark、hadoop、apache-spark-sql

spark.sql.shuffle.partitions和spark.default.parallelism有什么不同我尝试在SparkSQL中设置这两个任务，但第二阶段的任务号总是200。

浏览 1提问于2017-08-16得票数 95

回答已采纳

1回答

是否可以从CSV列的特定子集创建配置单元表？

csv、hadoop、select、hive

我知道我可以创建一个包含所有这些元素的表，然后使用SELECT语句只获取我想要的那些元素，并创建第二个hive表，但我想知道是否有方法可以避免这样做。, 'I2_imag',我不想让这些出现在Hive表中：['Var2', 'V

浏览 0提问于2017-10-03得票数 1

2回答

Spark Dataframe分区数

apache-spark、dataframe、apache-spark-sql

有人能解释一下为Spark Dataframe创建的分区数量吗？但是对于Spark dataframe，在创建时，我们看起来没有像RDD那样指定分区数量的选项。我认为唯一的可能性是，在创建数据帧之后，我们可以使用重新分区API。 df.repartitio

浏览 1提问于2016-09-07得票数 9

回答已采纳

2回答

蜂箱分区、火花分区和加入火花-它们之间的关系

apache-spark、hive、apache-spark-sql、apache-spark-dataset

试图理解Hive分区是如何与Spark分区相关联的，最后提出了一个关于联接的问题。问题1:val table1 = spark.table("table1").as[Table1Row]那么，生成的数据集将分别有多少个分区？分区等于S3中的

浏览 4提问于2018-04-25得票数 5

2回答

Spark中的多输出分类

python、pyspark、classification、apache-spark-ml

我们可以在Pyspark中预测多个目标变量吗，就像我们在sklearn中执行MultiOutputClassifier一样？我有一个包含多个目标变量的数据集0 Pbl1 Low“问题和复杂性”，我必须预测特定问题的“技能”，而我的目标变量是“Skill1，Skill2，Skill3，Skill4”。在sklearn中，

浏览 0提问于2019-02-15得票数 1

2回答

为什么火花放电作业在过程中消失而没有任何特别的错误？

apache-spark、pyspark、apache-spark-sql

专家们，我注意到了一件奇怪的事情，那就是生产中的一项工作(在纱线集群模式下运行)。在执行了大约一个小时+(大约65-75分钟)之后，它就会消失，而不会抛出任何特定的错误消息。代码是优化的，火花提交-conf拥有所有正确优化的选项。正如我们前面提到的，它运行的非常完美，大约有30个其他应用程序具有非常好的性能统计。这些都是我们的选择- spark-submit --conf spark.yarn.ma

浏览 8提问于2019-10-25得票数 1

回答已采纳

2回答

16个任务的序列化结果总大小(1048.5 MB)大于spark.driver.maxResultSize (1024.0 MB)

python、apache-spark、pyspark、spark-dataframe

当我将--conf spark.driver.maxResultSize=2050添加到我的spark-submit命令时，我得到了以下错误。:205) at org.apache.spark.rpc.RpcEndpointRef.askSync(RpcEndpointRef.scala:92) at org.apache.

浏览 10提问于2017-12-28得票数 44

回答已采纳

1回答

星火代码在作业、阶段和任务中的分布

apache-spark、apache-spark-sql、spark-dataframe

根据我的理解，整个作业中的每一个动作都被转换成作业，而作业中的每一个洗牌阶段都被转换成一个阶段，每个阶段的每个分区都被转换成任务。请告诉我，如果我错了，我无法得到任何实际的定义。

浏览 0提问于2017-08-29得票数 0

回答已采纳

点击加载更多