在PySpark上按大小分区文件

、

我正在使用PySpark对一个df进行分区，并在S3上写入10个分区：如何根据分区大小而不是分区数量对df进行分区。例如:我想有n个50MB的分区。

浏览 18提问于2020-03-12得票数 1

回答已采纳

1回答

为聚合增加或减少分区？

、、

我不确定在执行聚合操作时是否应该增加或减少分区的数量。假设我使用的是火花放电数据格式。pyspark 1.6.1。增加分区数量的论据:由于为了聚合，我们必须对数据进行洗牌，所以您需要对周围的数据进行洗牌，从而增加分区的数量，以减小分区的大小。减少分区数量的参数

浏览 1提问于2017-08-10得票数 1

回答已采纳

1回答

为什么分区的数目是由32 of的分割大小决定的？

、、

我有一个849 of的输入文件。当我使用sc.textFile()在pyspark中读取这个文件并检查no时。对于分区，它是27个。我还有一个2.60GB大小的文件，这个文件的编号。分区是84个。我在本地运行，有4个核心。但是当我检查dfs.block.size时，它是128 it。我不知道发生了什么，以及我的pyspark是如何计算分区数的。

浏览 1提问于2022-04-09得票数 -1

回答已采纳

1回答

当动作结果大小大于机器内存时，它是如何工作的？

、

pyspark collect()(action)为1 1gb的机器的存储和内存大小。但是我得到的文件大小是4 1gb (存储在4个分区中，每个分区的大小为1 1gb)。

浏览 17提问于2019-07-10得票数 1

回答已采纳

2回答

如何在Azure HDInsight上设置镶木镶木块大小？

、、、、

我有大约3500个csv，我将其转换为按日期划分的镶木地板(此数据跨越7天)。我想设置拼图文件的大小，使每个文件都是1 1gb。目前，我收到的文件太多(每天400-600个)，大小从64 MB到128 MB不等。我可以重新分区(使用repartition/coalesce)到x个文件，每个分区(天)，但我仍然有不同的文件大小，这取决于一天中存在的数据量，所以第一天可能有20 gb，所以10

浏览 2提问于2017-07-19得票数 0

1回答

我是新来的火花，所以我跟随这个来自sparkbyexamples.com的令人惊奇的教程，在阅读的时候我发现了这个部分：基于您的数据集大小，多个核心和内存PySpark洗牌可能对您的工作有利或有害当您处理较少的数据量时，您通常应该减少洗牌分区，否则您将得到许多分区文件，每个分区中的记录数会更少。这导致运行了许多任务，需要处理的数据较少。另一方面，当您有太多的数据，而分区数量较少时，会导致运行时

浏览 1提问于2021-05-22得票数 3

1回答

Pyspark中的范围划分

、、、

对于100个分区，我该如何按范围进行分区？我在Scala中见过RangePartitioner类，但在PySpark应用程序接口中似乎没有它。我有一个非常大的数据集，目前正在按唯一id进行分区，但这创建了太多的分区。我想知道在PySpark中关于范围分区的最佳实践 df.write.partitionBy('unique_id').mode('overwrite').csv(f

浏览 19提问于2019-04-18得票数 1

回答已采纳

1回答

在Databricks中的一个非常大的、糟糕的分区表上向Partion添加新列

、、、

我对databricks很陌生，我很好奇是否有更好的方法在非常大的表上添加要分区的列。我想在表中添加一个新列，以便按(日期列)进行分区，在尝试添加列和保存表时，在尝试某些默认建议之后，我会遇到一些超时/内部错误。fr

浏览 6提问于2022-02-14得票数 1

2回答

Dataproc未使用pyspark并行处理大数据

、、

我在GCP中启动了一个DataProc集群，有一个主节点和3个工作节点。每个节点有8个vCPU和30G内存。gcloud dataproc jobs submit pyspark gs://<my-gcs-bucket>/<my-program>.py \

浏览 4提问于2021-05-03得票数 0

1回答

Pyspark:使用dataframe在hive分区表上用新数据替换旧数据

、、

您能指导我使用pyspark(dataframe)在特定的hive分区上用新数据替换旧数据吗？每个月我都会收到一些县的记录。我想用该分区上的新数据替换旧数据。我已经使用pyspark开发了脚本，并在数据帧中加载了特定分区的新数据。现在，我想单独为该分区用新数据替换旧数据(因为基表很大)。我尝试删除该分区并附加新的数据帧。<e

浏览 8提问于2016-08-16得票数 2

3回答

用Spark的S3方法分割S3中一个大的倾斜数据集

、、

问题#1val df = spark.read.parquet("some_data_lake")问题#2这段代码会写出大量的文件。df.write.partitionBy("s

浏览 1提问于2018-10-28得票数 23

回答已采纳

1回答

超块中的坏幻数:红帽6

、、

我在RHEL6.9上扩展了一个磁盘。在新磁盘上运行resize2fs时，我会得到超级块错误。/dev/sdc1 1，并重新创建以扩展到空间的其余部分，我没有在其上编写文件系统，因为我们有它的数据。我运行了以下步骤：在右磁盘上运行fdisk (X是磁盘的正确字母)：fdisk /dev/sdX通过按p (查看分区详细信息)检查分区表，通过按d(删除分区)删除<

浏览 0提问于2019-06-22得票数 1

1回答

从非分区单元表到分区单元表的PySpark数据加载的性能优化

、、、

我们有一个要求，从一个非分区的work_db.customer_tbl外部蜂窝表通过PySpark从一个分区的外部的蜂巢表通过PySpark摄取数据，以前是通过hive查询完成的。因此，我们有一个简单的PySpark脚本，它使用一个插入查询(与前面使用的单元查询相同)来使用spark.sql()命令摄取数据。但是，我们有一些严重的性能问题，因为我们在摄入后试图摄入的表大约有3000分区，和每个分区大约有4MB的数据，除了最后一个分区大

浏览 2提问于2021-03-25得票数 0

1回答

在Pyspark中组合DataFrames

、、

我有一个供应商给了我一个S3桶上的多个压缩数据文件，我需要一起读取使用Pyspark进行分析。如何修改sc.textFile()命令？另外，如果我加载10个文件，我如何引用它们？在更广泛的层面上，我将如何调整AMAZON EMR集群上的分区和内存？每个压缩文件的大小为3MB或解压缩后的1.3 3MB。谢谢

浏览 0提问于2020-02-19得票数 0

3回答

如何使用AWS Glue减少将镶木地板文件写入s3所需的时间

、、、

因此，我创建了一个循环，通过每小时文件夹(每个文件夹155 as )将数据读取到spark df中，对某些类别进行过滤，并将其作为按过滤的类别划分的拼图文件(s3://<path>/category=<

浏览 0提问于2020-08-18得票数 2

2回答

有效地让partitionBy写入与原始表相同的总分区数。

、

我被要求把它作为一个单独的问题发出来，所以这里是：据我所知，df.partitionBy(COL)将把带有COL值的所有行写入自己的文件夹，并且每个文件夹(假设行以前通过其他键分布在所有分区中)的文件数量与整个表中的大致相同如果我有一个包含500个分区的大表，并且对一些属性列使用partitionBy(COL)，那么我现在有100个文件夹，每个文件夹都包含500个文件(现在非常小)。我想要的是partitionBy(COL)行为，但文件</e

浏览 0提问于2018-06-09得票数 38

回答已采纳

2回答

星星之火数据(ForeachPartition)：将元素之和

、

我试图在每个分区的火花数据和和元素的划分使用吡咯烷酮。但我无法在被调用的函数"sumByHour“中执行此操作。基本上，我无法访问"sumByHour“中的dataframe列。基本上，我是按“小时”列进行分区，并试图根据“小时”分区对元素进行求和。预期产量分别为: 6,15,24，0,1,2小时。在没有运气的情况下尝试过。from pyspark.sql.functions import * from

浏览 4提问于2022-01-25得票数 0

回答已采纳

1回答

如何将小拼图文件合并为一个大拼图文件？

、、、

我有一些分区的hive表，它们指向拼图文件。现在我为每个分区都有很多小的拼图文件，每个文件的大小都在5kb左右，我想把这些小文件合并成每个分区的一个大文件。我如何才能做到这一点，以提高我的蜂巢性能？我已经尝试将分区中的所有拼图文件读取到pyspark dataframe，并将组合后的dataframe重写到相同的分区，并删除旧的。但由于某些原因，这对我来说似乎是低

浏览 5提问于2018-08-16得票数 0

回答已采纳

1回答

写入拼花文件时能重叠分区吗？

、、、、

我有一个非常大的数据，大约2TB的大小。有两个列可以对它们进行分区：MODULE和DATE，如果我用MODULE对它们进行分区，每个模块都可以有相同的日期，例如MODULE A可能有日期，2020-07-01 , 2020-07-02和MODULE我需要先用MODULE对它们进行分区，然后再进行聚合和连接，然后再用DATE进行分区和存储。我正在使用pyspark来编写代码。在完成聚合和按模块连接之后，我将其附加到一个拼花文件中，并将整

浏览 2提问于2020-07-12得票数 0

1回答

如何在使用PySpark将数据写入拼图时指定分区号

、

我想写一个火花数据，但不是指定为partitionBy，而是numPartitions或每个分区的大小。在PySpark中有一种简单的方法吗？

浏览 0提问于2016-05-08得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为聚合增加或减少分区？

为什么分区的数目是由32 of的分割大小决定的？

当动作结果大小大于机器内存时，它是如何工作的？

如何在Azure HDInsight上设置镶木镶木块大小？

如何确定星火应用程序的洗牌分区？

Pyspark中的范围划分

在Databricks中的一个非常大的、糟糕的分区表上向Partion添加新列

Dataproc未使用pyspark并行处理大数据

Pyspark:使用dataframe在hive分区表上用新数据替换旧数据

用Spark的S3方法分割S3中一个大的倾斜数据集

超块中的坏幻数:红帽6

从非分区单元表到分区单元表的PySpark数据加载的性能优化

在Pyspark中组合DataFrames

如何使用AWS Glue减少将镶木地板文件写入s3所需的时间

有效地让partitionBy写入与原始表相同的总分区数。

星星之火数据(ForeachPartition)：将元素之和

如何将小拼图文件合并为一个大拼图文件？

写入拼花文件时能重叠分区吗？

如何在使用PySpark将数据写入拼图时指定分区号

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐