如何保证Spark Dataframe中的重新分区

、、、

我是Apache Spark的新手，我正在尝试按美国政府重新划分数据帧。然后，我希望将每个分区分解为其自己的RDD，并保存到特定位置： types.StructField("details", types.StructType, str(event)) print "Partition {0}: No rows".format(index) 为了进行测试，我从S3加载了一

浏览 1提问于2016-08-16得票数 1

回答已采纳

2回答

如何在PySpark DataFrame中强制进行特定的分区？

、、

编辑2022/02/18:几年后我又回到了这个问题上，我相信下面的新解决方案比目前投票最多的解决方案的性能要好得多。假设我有一个带有列DataFrame的partition_id [1, 'A'],[1, 'B'], [2, 'C'] ]).toDF((

浏览 1提问于2018-06-08得票数 7

回答已采纳

1回答

如何在星火数据中强制重新分区？

、、、

the previous spark dataframes有没有更好的方法来迫使它在这里之间重新划分？是否有比在dataframe上运行count()更好

浏览 2提问于2017-08-01得票数 6

回答已采纳

1回答

pyspark中的不一致结果

、、、、

重复运行以下代码会产生不一致的结果。到目前为止，我只看到了两个输出。在切换到其他结果之前，结果会重复任意随机次数，然后在再次切换回之前，这些结果也会重复任意随机次数。spark = pyspark.sql.SparkSession.builder.getOrCreate() impo

浏览 1提问于2018-03-02得票数 1

1回答

为什么写入的数据帧在读取后没有保持顺序？

、

我按照前两列的顺序将数据帧写入HDFS： final = <dataframe>.select('Pais','Anho','NumPatentes','TotalCitas','MediaCitas") final.write.format("csv").save("<path>", header = 'true') 然后，我使用以下命令从HDFS

浏览 11提问于2019-12-03得票数 2

回答已采纳

0回答

设置dask中拼图输出文件的大小

、、、

当使用dask dataframe to_parquet方法时，有没有办法像spark那样设置默认拼接文件大小？我的问题是，当我用partition_on kwarg保存它时，我得到了几个小文件，每个分区目录，因此导致非常慢的查询使用“亚马逊雅典娜”。中间期望的结果(如果文件大小控制不可用)是每个分区目录的n文件(现在1就足够了)。我认为保证每个分区目录一个文件的唯一方法是重新<e

浏览 5提问于2018-07-09得票数 2

1回答

从Spark RDD中删除空分区

、、、

我正在从HDFS获取数据，并将其存储在Spark RDD中。Spark根据HDFS块的数量创建分区的数量。这会导致大量的空分区，这些分区也会在管道过程中被处理。为了消除这种开销，我想从RDD中过滤出所有空分区。我知道合并和重新分区，但不能保证所有的空分区都会被删除。有没有其他的办法来解决这个问题？

浏览 2提问于2015-10-22得票数 10

1回答

spark.sql.shuffle.partitions和df.repartition之间的差异(如果有)

、、

我很难调和sqlContext.sql("set spark.sql.shuffle.partitions=n")和利用df.repartition(n)重新划分星火DataFrame之间的差异(如果存在的话Spark文档表明，set spark.sql.shuffle.partitions=n配置在调整数据时使用的分区数，而df.repartition似乎返回按指定键数分区的新DataF

浏览 0提问于2018-06-20得票数 0

回答已采纳

1回答

如何为结构化查询的不同代码部分指定分区数？

、

我有一个Spark流，类似于： .join(anotherDataFrame, columns) .save() 在join步骤中，我希望spark.sql.adaptive.enabled是true，因为这将加快连接的速度。在repartition步骤中，我希望spark.sql.adaptive.enabled是false，因为如果是真的，它可能会更改分区，

浏览 0提问于2019-01-28得票数 2

1回答

Spark Partition数据集(按列值)

、、、

由于PKs (唯一it )同时存在于数据和更新文件中，因此很容易确定将更新哪个分区。(我们知道如何组合shard S+update= new shard S) 如果这就是我们的设计，我们需要(1)通过它的一列(比如:列K)将DataFrame分片到|range(K)|分区中，其中保证分区中的所有行在列K中具有相同的值，并且(2)能够找到与colu

浏览 19提问于2019-05-03得票数 2

回答已采纳

1回答

如何确保由星火DataFrame连接诱导的分区？

、、、、

我正在重写一个星火应用程序，以便使用更多的DataFrame操作来提高效率和健壮性.但是，应用程序中有一部分是不能用DataFrames完成的，因此我不得不跳到RDD。在Spark RDD联接中，这些对是由分区数据上的迭代器隐式形成的，除非我告诉Spark将迭代器“物化”到一个对列表中，然后重新划分结果，否则这两对将无法离开定义它们的分区。我希望DataF

浏览 1提问于2016-07-13得票数 6

回答已采纳

2回答

星火知道DataFrame的分区键吗？

、、

我想知道星火是否知道分割键的地板文件，并使用这些信息，以避免洗牌。运行Spark2.0.1运行本地SparkSession。特别是，我在上面运行一个window function，其中分区是在parquet文件被重新分区的同一列上完成的。如果它不知道，我如何告诉斯派克数据已经被正确的列分区了？如何检查DataFrame的分区键？

浏览 0提问于2018-01-26得票数 21

回答已采纳

1回答

通过集群提高SparkSQL查询性能

我们经常需要在查询中使用JOIN大表，并且不需要很长时间就会遇到与它们相关的性能问题(例如。Joins、aggregates等)。在网上搜索补救方法时，我最近遇到了一些术语-- COALESCE()、REPARTITION()、DISTRIBUTE BY、CLUSTER BY等，而且它们可能用于提高慢速运行的SparkSQL 查询的性能不幸的是，我找不到足够的例子，让我清楚地理解它们，并开始将它们应用到我的查询中。我主要是寻找一些例子来解释它们的语法、

浏览 5提问于2020-06-05得票数 0

1回答

Spark Data Source是否支持对写入的输入V2进行重新分区？

在Spark API中，V1将输入DataFrame传递给CreatableRelationProvider的createRelation方法 https://spark.apache.org/docsRDD进行重新分区，以便输入分区的数量更适合目标数据源的要求。但是在V2应用编程接口中，BatchWrite接口似乎没有为数据源提供任何在写入之前强制对输入数据进行重新<

浏览 41提问于2021-05-08得票数 0

1回答

PySpark数据重分区

、

当我们根据列对PySpark数据进行重新分区时会发生什么。例如这是否将具有类似'id'的数据移动到相同的分区？spark.sql.shuffle.partitions值如何影响重分区？

浏览 0提问于2018-02-22得票数 11

回答已采纳

1回答

Spark Dataframe在性能上如何优于Pandas Dataframe？

、、、、

谁能解释一下为什么Spark Dataframe在执行时间上比Pandas Dataframes更好。我正在处理中等容量的数据，并进行python函数供电的转换输出为 Time t

浏览 0提问于2019-04-30得票数 3

1回答

spark如何将训练任务均匀地分配给执行者？

、

我已经设置了一个包含4个worker(每个有4个核心)和1个master的spark独立集群。每台都有Windows10操作系统。我向我们的spark独立集群提交了spark的ML示例: multilayer_perceptron_classification.py。但它是将所有任务都交给一个执行者在一个worker上执行。enter image description here 火花代码是(代码使用multilayer_perceptron_classification.py MLli

浏览 33提问于2019-02-26得票数 0

回答已采纳

1回答

火花DataFrame再划分与Parquet划分

、

我正在使用重新分区的列，以存储数据在拼花。但我看到了不。分割后的文件与否文件不相同。Rdd分区。rdd分区和拼板分区之间没有关联吗？当我将数据写入parquet分区并使用Rdd重新分区，然后从parquet分区读取数据时，rdd分区号在读/写过程中是否存在相同的条件？如何使用列id对数据进行存储，以及如何</e

浏览 2提问于2018-09-26得票数 13

回答已采纳

1回答

将配置单元分区表加载到Spark Dataframe

、、、、

我使用的是Spark 1.4.1版本。我正在尝试将一个已分区的配置单元表加载到一个DataFrame中，其中在配置单元表中按year_week编号进行分区，在这种情况下，我可能有104个分区。但是我可以看到DataFrame正在将数据加载到200个分区中，我知道这是因为spark.sql.shuffle.partitions默认设置为200。我想知道是否有什么好方

浏览 1提问于2016-03-28得票数 1

2回答

在DataFrame联合之后管理火花分区

、、、、

我对火花还是很陌生的，我突然想到：在我看来，理解这一点似乎非常重要，因为Spark似乎很大程度上依赖于DataFrames使用的分区策略。我唯一能想到<

浏览 9提问于2016-09-08得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何保证Spark Dataframe中的重新分区

相关·内容