无法使用Spark 3.0.1更改Pyspark中的分区数量

在Pyspark中，要更改分区数量，可以使用repartition()或coalesce()方法。这两个方法都可以用于重新分区数据集，但有一些区别。

repartition()方法：该方法会进行数据洗牌(shuffle)，即重新分配数据到新的分区。它会产生一个全新的分区，可以增加或减少分区数量。使用repartition()方法时，可以指定新的分区数量作为参数。

示例代码：

df = df.repartition(10)  # 将数据集重新分区为10个分区

coalesce()方法：该方法只能减少分区数量，不会进行数据洗牌。它会将多个小分区合并为一个大分区，因此可能会导致数据不均衡。使用coalesce()方法时，可以指定新的分区数量作为参数。

示例代码：

df = df.coalesce(5)  # 将数据集合并为5个分区

无论是使用repartition()还是coalesce()方法，都需要注意以下几点：

分区数量的选择应根据数据量和计算资源进行合理的调整，以避免数据倾斜或资源浪费。
分区数量过多可能会导致性能下降，因为每个分区都需要一定的资源来管理。
分区数量过少可能会导致数据倾斜，某些分区的数据量过大，影响计算效率。

推荐的腾讯云相关产品：腾讯云EMR（Elastic MapReduce）是一项大数据处理服务，可提供Spark集群，用于处理大规模数据集。您可以使用EMR来运行Spark作业，并根据需要调整分区数量。

更多关于腾讯云EMR的信息，请访问：腾讯云EMR产品介绍

无法使用Spark 3.0.1更改Pyspark中的分区数量

、、

我在本地Windows10的Spark 3.0.1上使用Pyspark进行测试和开发，无论我尝试什么，产生的进程数总是200，这对于我的小测试用例来说太多了。我像这样创建我的Spark-SQL上下文： from pyspark.sql import SparkSession spark = SparkSession.builder.appName("pyspark_tes

浏览 21提问于2020-10-13得票数 1

2回答

电火花数据

、

在pySpark中，我会在加载数据时更改分区的数量。df_sp = spark.read\ .option("header", "true")\inferSchema", "true")\

浏览 2提问于2022-03-04得票数 -1

回答已采纳

1回答

装载火花-env.sh，火花-提交:没有这样的文件或目录

、、

我正试图在我的iMac上安装apache，使用这2页上的说明：酿制木桶安装java brew安装java 火花弹外壳： /usr/local/Cellar/apache-spark/3.0.1/libexec

浏览 1提问于2021-01-18得票数 0

1回答

如何使用火花放电获取Delta表的所有当前分区？

、、、

我使用的OSS版本的三角洲湖和火花3.0.1。我的当前用例要求我发现给定的增量表中的所有当前分区。我试图使用SHOW PARTITIONS语法，就像中提到的

浏览 4提问于2021-02-22得票数 1

1回答

Pyspark在docker中找不到csv

、、

我刚接触过Docker和pyspark。我有一个docker镜像，运行在python3.7上--阿尔卑斯山。header', True).csv('Crimes_2001_to_Present.csv') 但我得到的答案是： java.io.FileNotFoundException: File file:/Crimes_2001_to_Present.csv does not exist 在尝试读取csv之前，我打印出了当前工作目录以及该工作目录中的所有文件夹和文件 print(

浏览 25提问于2020-12-21得票数 1

回答已采纳

3回答

在窗口上设置Git Bash中的火花壳

、、、、

我还没有在我的系统上使用任何其他软件来面对这个问题。能够在窗口终端/命令提示符和Git-Bash中安装和运行所有东西。python 3.8.3git version 2.29.2.windows.2 但是我无法为Git (尝试使用管理权限)找出它/c/Spark/spark-3.0.1<

浏览 5提问于2020-12-29得票数 3

1回答

PySpark pyspark.sql.DataFrameReader.jdbc()不像文档所说的那样接受datetime类型的上绑定参数

、、、

我在PySpark 3.0.1的中找到了用于jdbc函数的文档，它说：sql_conn_params = get_spark_conn_params() # my function sql_conn_paramsliteral for i

浏览 6提问于2021-02-06得票数 2

回答已采纳

2回答

无法在另一个pycharm项目中运行pyspark

、、、、

然而，我无法在另一个Pycharm项目(项目B)中启动Spark，该项目是我使用与项目A相同的解释器设置的。在项目B环境中，我似乎能够调用spark会话。当我去http://localhost:4040/的时候，已经建立了一个spark会话。当我在项目B pycharm终端中调用pyspark时，我得到了以下错误消息。虽然我通过从项目A pychar

浏览 3提问于2020-11-30得票数 0

1回答

安装pyspark的最新配置是什么？

、、

我正在尝试安装pyspark。遵循这个主题，特别是来自OneCricketeer和zero323的建议。我做了以下工作：2-在我的.bashrc文件中设置：{SPARK_PA

浏览 1提问于2020-09-26得票数 0

2回答

ModuleNotFoundError:没有名为“pyspark”的模块

、、

我最近在Linux上安装了pyspark，在导入pyspark时得到错误： ModuleNotFoundError: No module named 'pyspark' Pyspark在我的“pip列表”中我在.bashrc中添加了以下几行代码： export SPARK_HOME=~/Spark/spark-3.0.1-bin-hadoop2.7 expo

浏览 670提问于2020-10-02得票数 2

1回答

从码头集装箱连接PySpark到Kafka

、、、、

我有一个容器来运行代理，另一个容器运行pyspark程序，它应该连接到代理容器中的kafka主题。如果我在本地膝上型计算机中运行了pyspark脚本，一切都运行得很完美，但是如果我试图在pyspark容器中运行相同的代码，则会得到以下错误： AnalysisException: Failed toper the deployment section of "Structured Streaming + Kafka Integration Gu

浏览 4提问于2021-03-20得票数 3

回答已采纳

2回答

Pyspark应用程序仅部分利用dataproc集群资源

、、、

我的pyspark应用程序在106，36MB的数据集(817.270条记录)上运行UDF，使用常规的python lambda函数需要大约100个小时。我已经创建了一个包含20个工作节点的Google Dataproc集群，每个工作节点有8个vCPU。但是，在执行时，总共只使用3个节点和3个vCPU。显然，我希望集群使用我提供的所有资源。我得到的数据帧的默认分区数是8。我尝试将其重

浏览 10提问于2019-07-23得票数 4

回答已采纳

1回答

Spark for python -将其从字符串转换为小数时为Null (36，12)

、

无法将字符串转换为十进制，它返回null。from pyspark.sql.types import DecimalType df2=df.column("invoice_amount",df["invoice_amount"].cast('decimal(36,12)')) display(df2) 在表dat

浏览 10提问于2020-10-07得票数 1

2回答

使用Spark3.0.1结构化流的Kafka : ClassException: org.apache.kafka.common.TopicPartition；类无效用于反序列化

、、、、

，我正在尝试使用pyspark结构的流来阅读google dataproc中的kafka消息。版本详细信息如下： storage)pyspark dataproc映像verison为2.0.0- am 22-debian10 10(为了获得pyflem3.0.1版本与delta Lake0.7.0的版本，因为我必须最终将此数据写到google org.apache.spark:spark-sql-kafka-0-1

浏览 3提问于2021-03-01得票数 2

1回答

如何在.CSV或.XLSX文件中高效导出python中使用pyspark生成的关联规则

、、

在解决了这个问题之后：How to limit FPGrowth itemesets to just 2 or 3，我正在尝试将使用pyspark的fpgrowth的关联规则输出导出到python中的我的机器有足够的空间和内存。this: ['A','B'] ['C'

浏览 19提问于2019-07-02得票数 2

1回答

API来找出有多少执行者在运行我的星火作业？

我正在编写代码，捕获Spark运行中的统计信息，并将结果存储在XML文件中。我希望能够在REST中捕获有关执行器数量以及所创建的数据帧的数量和大小的信息。有什么简单的方法吗？API调用是什么？

浏览 0提问于2017-12-14得票数 2

1回答

来自Elasticsearch的Spark加载:执行器和分区的数量

、、、

我正在尝试将数据从Elasticsearch索引加载到Spark的dataframe中。我的机器有12个CPU和1个内核。我在一台Jupyter Notebook上使用PySpark，配置如下： pathElkJar = currentUserFolder+"/elasticsearch-hadoop-"+connectorVersion此外，我认为默认情况下执行程序的数量等于CPU的数量</em

浏览 17提问于2020-11-10得票数 0

1回答

如何在VS代码中设置pyspark？

、、

我试图在VS-Code中运行pypsark，但我似乎无法将我的环境指向正确的pyspark驱动程序和路径。当我在终端窗口中运行pyspark时，它看起来是这样的： Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties当我在Vs-Code中运行一个文件时，我得到了这个错误：

浏览 64提问于2020-10-18得票数 2

1回答

在Jupyter笔记本中使用PySpark配置

、、

我目前正在尝试使用python内核和pyspark在Jupyter笔记本中配置Spark上下文，但我所做的更改都没有实现。例如，我更改了每个执行器的核心数量，并看到更改在Spark UI Environment选项卡中生效，而不是在executors选项卡中生效() ()import findspark findspark.ini

浏览 15提问于2019-07-17得票数 1

2回答

google dataproc - image版本2.0.x如何将pyspark版本降级到3.0.1

、、、

在google云中使用dataproc镜像版本2.0.x，因为在这个dataproc镜像版本中提供了delta0.7.0。然而，这个dataproc实例附带了pyspark 3.1.1的默认版本，Apache Spark 3.1.1还没有正式发布。因此，没有与3.1兼容的Delta Lake版本，因此建议降级。我已经尝试了下面的方法，在dataproc实例的主

浏览 1提问于2021-02-09得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

无法使用Spark 3.0.1更改Pyspark中的分区数量

相关·内容

无法使用Spark 3.0.1更改Pyspark中的分区数量

电火花数据

装载火花-env.sh，火花-提交:没有这样的文件或目录

如何使用火花放电获取Delta表的所有当前分区？

Pyspark在docker中找不到csv

在窗口上设置Git Bash中的火花壳

PySpark pyspark.sql.DataFrameReader.jdbc()不像文档所说的那样接受datetime类型的上绑定参数

无法在另一个pycharm项目中运行pyspark

安装pyspark的最新配置是什么？

ModuleNotFoundError:没有名为“pyspark”的模块

从码头集装箱连接PySpark到Kafka

Pyspark应用程序仅部分利用dataproc集群资源

Spark for python -将其从字符串转换为小数时为Null (36，12)

使用Spark3.0.1结构化流的Kafka : ClassException: org.apache.kafka.common.TopicPartition；类无效用于反序列化

如何在.CSV或.XLSX文件中高效导出python中使用pyspark生成的关联规则

API来找出有多少执行者在运行我的星火作业？

来自Elasticsearch的Spark加载:执行器和分区的数量

如何在VS代码中设置pyspark？

在Jupyter笔记本中使用PySpark配置

google dataproc - image版本2.0.x如何将pyspark版本降级到3.0.1

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐