Databricks -如何确定分区数量？

在 Databricks 中，确定分区数量是优化数据处理性能的关键步骤。分区数量的选择会影响到数据的并行处理能力、内存使用和计算效率。以下是一些确定分区数量的常见方法和最佳实践：

1. 使用默认分区数量

Databricks 默认会根据集群的配置和数据的大小自动确定分区数量。通常情况下，这个默认值是合理的，但在某些情况下，你可能需要手动调整分区数量以优化性能。

2. 基于数据大小和集群配置

一个常见的经验法则是每个分区的大小应在 128MB 到 256MB 之间。你可以根据数据的总大小和集群的配置来计算分区数量。

# 假设数据大小为 data_size_in_bytes
data_size_in_bytes = 10 * 1024 * 1024 * 1024  # 10GB
target_partition_size = 256 * 1024 * 1024  # 256MB

num_partitions = data_size_in_bytes // target_partition_size

3. 使用 `repartition` 或 `coalesce`

你可以使用 repartition 或 coalesce 方法来调整 DataFrame 的分区数量。

repartition(n)：增加或减少分区数量，适用于需要增加分区的情况。
coalesce(n)：仅减少分区数量，适用于需要减少分区的情况。

# 假设 df 是一个 DataFrame
df = df.repartition(num_partitions)
# 或者
df = df.coalesce(num_partitions)

4. 基于集群的核心数

另一个经验法则是分区数量应是集群核心数的 2 到 4 倍，以确保充分利用并行处理能力。

# 假设集群有 num_cores 个核心
num_cores = 16
num_partitions = num_cores * 2  # 或者 num_cores * 4

5. 使用 `spark.sql.shuffle.partitions`

对于涉及到 shuffle 操作的查询（如 join、groupBy），可以设置 spark.sql.shuffle.partitions 参数来控制 shuffle 分区的数量。

spark.conf.set("spark.sql.shuffle.partitions", num_partitions)

6. 动态调整分区数量

在实际应用中，你可能需要根据具体的作业和数据动态调整分区数量。你可以通过分析作业的执行计划和性能指标来做出调整。

# 查看 DataFrame 的分区数量
print(df.rdd.getNumPartitions())

# 动态调整分区数量
df = df.repartition(100)  # 例如，调整为 100 个分区

7. 使用 `DataFrameWriter` 的 `partitionBy`

在写入数据时，可以使用 partitionBy 方法按特定列进行分区，这样可以在读取时更高效。

df.write.partitionBy("column_name").parquet("path/to/output")

总结

确定分区数量是一个需要根据具体情况进行调整的过程。你可以从以下几个方面入手：

数据大小：确保每个分区的大小在 128MB 到 256MB 之间。
集群配置：分区数量应是集群核心数的 2 到 4 倍。
作业类型：根据作业的具体需求和性能指标动态调整分区数量。
配置参数：使用 spark.sql.shuffle.partitions 参数控制 shuffle 操作的分区数量。

Databricks -如何确定分区数量？

、、

在初始运行时，它在增量中生成大约25个分区(没有问题，因为键可能导致数据落入25个分区-我假设它不一定为没有数据的节点创建分区？)。但是，在第二次运行时(通过合并完成)，生成了60+分区文件(这是一个具有1700个预先存在的键和仅300个新键的SCD进程) 我的理解是，repartition使用散列算法来确定键属于哪个分区，那么如果是这样的话，它是如何创建比定义的分区更多的分区文件的呢？

浏览 30提问于2020-09-23得票数 2

1回答

如何在数据库中存储大型JSON 50Gb+文件？

、、

df.write.format('delta').save('/mnt/data/delta/silver/actual_total_track') 或者，对保存的数据进行分区是最佳实践吗？

浏览 4提问于2022-03-13得票数 0

1回答

火花加载1.5亿条记录进入MySQL需要2-3小时

、、、

我有火花散文正在做一些计算，然后它正在做一个插入MySQL表，所有的计算都在40-50分钟内完成。写入表的时间为2-3小时(取决于DB的使用情况)。我试着做批次 df_trsnss.write.format("jdbc").option("url", db_url_2).option("dbtable", output_table_name).o

浏览 1提问于2018-10-15得票数 1

1回答

我正在努力理解"mapInPandas“是如何在火花中工作的。Databricks博客中引用的例子是：import pandas as pd df = spark.createDataFrame([(1,我猜想它们可能和分区的数量一样多，但是当我进一步测试代码时，它们似乎太多了(在不同的数据集上有大约100米的记录)。那么，是否有一种方法可以知道迭代次数是如何确定的，以及是否有方法使迭代次数与分区数相

浏览 14提问于2021-02-06得票数 2

回答已采纳

1回答

星星之火和卡夫卡:如何提高生产者发送大量记录的并行性，提高网络使用率？

、、、、

我正在潜水，以了解我如何发送(生产)大量的记录从星火卡夫卡主题。假设我为1和2提供的选项如下(来自Databricks我现在的想法是这样的，但我不确定，所以我在这里问你:虽然从CPU的角度来看(昂贵的计算任务)，1)会更好(更多的并发性，更少的洗牌)，从网络IO的角度来看，我宁愿使用2)，即使我将有

浏览 2提问于2021-11-10得票数 1

回答已采纳

1回答

星火中的分区与数据湖中的分区

、、、、

当将文件写入Data时，特别是通过Databricks，我们可以选择指定分区列。这将根据数据集中该列中可用的值将数据保存在单独的文件夹(分区)中。同时，当我们讨论星火优化时，我们谈到了数据的分区。据我所理解，如果我们只想读取数据的某些部分(当然是基于分区列)，将数据保存在分区中的分布式文件系统中将有所帮助。例如，如果我们按颜色进行分区，并且只对“红色”记录感兴趣，我们只能在该分区中读取，而忽略其余的。这会在读取数据时产生一定程度的优化。然后，为了让S

浏览 2提问于2022-05-10得票数 0

回答已采纳

1回答

为什么Spark在保存csv格式的数据时创建多个csv文件？

、、、

我想了解火花如何决定它创建的csv文件的数量，同时将数据帧保存为csv文件。分区的数量会影响这个数目吗？为什么要创建一些空文件？我有如下代码 .format("com.databricks.spark.csv") .option("delimiter

浏览 0提问于2018-03-28得票数 2

回答已采纳

1回答

在大量分区上处理上服务器不够快。

、、、、

问题 “缓慢”：处理其余部分(这三个日期分区除外)。原因很简单:它必须读取和更新许多银

浏览 5提问于2021-03-16得票数 9

回答已采纳

1回答

如何使用PySpark (databricks)加速本地下载CSV文件？

、

= spark_model.transform(image_final)请注意我们使用的是Databricks的社区版本。

浏览 2提问于2019-12-15得票数 1

2回答

Azure数据库在Spark上未并行化

、、、

然而，当我尝试在Azure Databricks上运行它时，使用一个最少2个工作进程和最多25个4核的集群，并且运行DB9.0，它只是一个接一个地运行，而没有并行化。除了在任何虚拟机中运行Spark，在Databricks中运行Spark是否需要任何额外的设置？

浏览 29提问于2021-10-08得票数 2

3回答

输出火花中的空文件

、

我正在像下面这样写我的数据但是，我得到了大约200个文件，其中大约有30-40个文件是空的，我可以理解这可能是由于空分区造成的。然后，我更新了代码如下但我觉得这可能会影响表演。还有其他更好的方

浏览 1提问于2017-05-18得票数 0

回答已采纳

2回答

亚马逊网络服务S3中的数据库Committed_vacuum

、、

我在Databricks上有一个Spark 3.0的工作，每天都在运行。我使用overwrite在S3分区文件夹中写入数据。在今天早上之前一切都很好。我已经检查了我的S3，并注意到我的日常分区中有一个committed_vacuum。有人知道这到底是什么意思吗？

浏览 2提问于2020-07-07得票数 0

1回答

如何确定mysql分区的数量

、、、、

所以我打算使用mysql分区：如有其他建议，敬请期待

浏览 5提问于2012-06-26得票数 3

1回答

如何使用Spark与teradata进行并行连接

、、、

如何与Teradata建立并行连接，需要包含哪些属性才能与Teradata建立多个并行连接？更新：我正在浏览这个databricks博客，它说，根据DataFrame中分区的数量，它将创建多个连接。

浏览 1提问于2018-09-16得票数 2

回答已采纳

2回答

尝试在PySpark中使用partitionBy写入csv时出错

、

我有一个数据帧，我希望根据现有的日期列按年、月和日进行分区。最后，我想把分区的csv写到某个目录中。但是在写入目录时，当我调用partionBy()函数时，它会抛出下一个异常。4| 1|| 19805|2014| 4| 1| 使用coalesce()，它可以写入目录，但我需要根据年、月和日对文件进行分区krishna.kanta.mitra\\Desktop\\DataSetForSpark\\mydata3.csv" .coalesce(1)

浏览 32提问于2019-03-02得票数 1

回答已采纳

2回答

用于databricks可伸缩集群的星火再分区逻辑

、、、

我正在读取星星之火中的gzip文件，并在rdd上进行重新分区以获得并行性，而对于gzip文件，它将在信号核心上读取并生成。按照，理想的分区数是集群中我可以在重新分区期间设置的核数，但是在自动缩放集群的情况下，这个数目会根据集群的状态和其中有多少执行者而变化。那么，自动可伸缩星型集群的分区逻辑应该是什么呢？但是，对于单个超大型文件databricks来说，可能会尝试自动缩放集群，然而，即使在集群中的核心扩展之后，我的数据共享的分区数量也会减少(基于以前的集群状态，它可能

浏览 1提问于2019-12-24得票数 0

回答已采纳

1回答