Pyspark:将函数应用于多个数据帧的匹配分区_如何将多个函数应用于数据帧列表？_如何将函数应用于多个pandas数据帧 - 腾讯云开发者社区

、、、

我有两个Spark DataFrames，具有匹配的分区对。我希望将每对分区发送到不同的执行器，并在它们上执行Python函数。我试过广播第二个，但它太大了，如果没有分区就无法放在我的executors上。我想我可能需要使用pyspark.rdd.RDD中的函数，但我不确定是哪一个。有几个选项，比如groupByKey和cogroup似乎是相关的，但我不明白如何

浏览 18提问于2019-07-04得票数 0

1回答

使用PySpark统计每个窗口的用户数

、、、、

我正在使用Kafka流式传输一个JSON文件，将每一行作为一条消息发送。其中一个关键字是用户的email。下面是我的PySpark</

浏览 2提问于2018-11-21得票数 0

1回答

Pyspark管道在pandas数据帧上的应用

、、、

我有一个pyspark管道(包含估算和一个机器学习模型)和一个pandas数据帧。我是否可以在不将其转换为Pyspark dataframe的情况下将管道应用于此pandas数据帧？如果不可能，我如何有效地使用pyspark管道来生成对pandas数据帧的预测？

浏览 3提问于2021-09-13得票数 1

2回答

Pyspark应用程序仅部分利用dataproc集群资源

、、、

我的pyspark应用程序在106，36MB的数据集(817.270条记录)上运行UDF，使用常规的python lambda函数需要大约100个小时。我已经创建了一个包含20个工作节点的Google Dataproc集群，每个工作节点有8个vCPU。但是，在执行时，总共只使用3个节点和3个vCPU。显然，我希望集群使用我提供的所有资源。我得到的数据帧的默认分区数

浏览 10提问于2019-07-23得票数 4

回答已采纳

1回答

每个分区中增量值基于pyspark中一列的变化

、、

我想为PySpark DataFrame中的每个分区创建一个新列(number)，它会在列年份发生变化时递增。原始数据： name period year A 1 2010A 1 2013 B 1

浏览 8提问于2020-09-23得票数 0

1回答

windowPartitionBy和pyspark中的重新分区

、、、

我在SparkR中有一个小代码，我想把它转换成pyspark。我对这个windowPartitionBy并不熟悉，并且重新分区。你能帮我了解一下这段代码是做什么的吗？

浏览 34提问于2020-12-18得票数 0

回答已采纳

2回答

集成scikit-learn与pyspark

、、

我正在探索pyspark和整合scikit-learn与pyspark的可能性。我想使用scikit-learn在每个分区上训练一个模型。这意味着，当我的RDD被定义并分布在不同的工作节点上时，我想使用scikit-learn并在每个工作节点上存在的每个分区上训练一个模型(假设是一个简单的k- means )。由于scikit-learn算法需要一个Pandas数据帧，所以我最初的

浏览 4提问于2016-07-04得票数 4

0回答

将pyspark* 2.2.0数据帧分区写入S3并行化*

、、、

开始使用pyspark，遇到了我用代码创建的瓶颈：我通过drive_id将PySpark2.2.0数据帧“group by”划分为多个分区，并将每个分区(组)写入其在S3上的位置。我需要它来定义由drive_id分区的S3位置上的雅典娜表-这允许我在被drive_id查询时非常有效地读取数据。).parquet("s3n:/

浏览 4提问于2017-12-10得票数 0

1回答

PySpark算法在连接后变慢

、、、、

因此，我从以下数据帧开始算法： Initial dataframe 在当前情况下，分区数为7，计算所有行所需的时间为0.7秒。行数为250万。我使用了一个UDF函数，它计算每一行相对于所有其他列的误差(我不认为这个等式是相关的)。在count函数花费大约相同的时间之后。现在到了棘手的部分。我必须创建两个新的数据帧。我实现了另一个更新偏差的UDF

浏览 48提问于2021-07-15得票数 0

1回答

Pyspark pyspark.sql.functions行为怪异

、、、

当我们有超过3个节点来分发数据时，pyspark.sql.functions下的"last“函数在spark上返回不一致的结果。from pyspark.sql.types import DoubleType numeric = sqlContext.createDataFramecolor").agg(F.last(

浏览 1提问于2017-02-02得票数 1

1回答

spark.executor.cores Vs spark.executor.instance我应该增加哪一个？

这里的权衡是什么?应该如何选择这两个配置的实际值？

浏览 1提问于2020-06-01得票数 0

1回答

如何添加带有行号的列？

、、

我有一个pyspark数据格式。我想添加一个包含行号的列。这就是我要做的如果我检查stop_id的最大值，我就会得到

浏览 1提问于2020-05-17得票数 0

回答已采纳

1回答

遍历多个pandas Dataframe对象

、、、

我有一个预测函数，我已经将它应用于一个数据帧，它工作得很好。问题是我可以提取多个数据帧，如果我想使用相同的函数来运行所有的数据帧。因为rawdf有一个名为DepotName的列，该列有多个唯一值。我的目标是将rawdf分解为对应于仓库的多个<

浏览 0提问于2018-05-23得票数 0

1回答

雪花不扣除拼花中的按列分区

、

我有一个关于雪花的新功能-Infer模式表函数的问题。推断模式函数在拼图文件上执行得非常好，并返回正确的数据类型。但是，当对拼图文件进行分区并将其存储在S3中时，推断模式的功能与pyspark数据帧不同。在DataFrames中，分区文件夹名和值被读取为最后一列；在Snowflake推断模式中，有没有办法实现同样的结果？ @GregPavlik

浏览 0提问于2021-10-21得票数 5

1回答

分组依据列表中的元素

、、

我是PySpark的新手。我创建了spark dataframe，并且我有一个" countries“列，其中包含国家列表。如何通过存在于国家/地区列表中的单个国家/地区来groupBy我的数据帧 +-----------------++-----------------+ | [

浏览 4提问于2019-10-09得票数 0

2回答

有没有办法改变每个分区文件夹的输出行数？

、、

我有大量的最终结果数据，这些数据在我感兴趣的列中分布得并不均匀。当我通过分区直接写入时，每个分区具有与spark.sql.shuffle.partitions相同数量的文件。这会导致拥挤分区中的每个文件都非常大(以GB为单位)，但在其他一些分区中，文件大小实际上很小(甚至以KB为单位)。有没有办法改变每个分区的文件数？------------------+----------+ 如

浏览 2提问于2018-12-05得票数 0

2回答

pySpark forEachPartition -代码在哪里执行？

、、、

由于我需要将一些Python-函数应用于我的数据，并且希望最小化开销，所以我的想法是至少将一组可处理的数据加载到驱动程序中，并将其作为Pandas-DataFrame处理。无论如何，这将导致并行性的损失-优势火花。然后，我看到foreachPartition对分区中的所有数据应用了一个函数，因此允许并行处理。我现在的问题是：当我通过foreachPartit

浏览 0提问于2019-04-12得票数 4

回答已采纳

1回答

如何显示pyspark数据帧的历史记录？

、

我使用我的代码对pyspark dataframe进行分组和聚集，它看起来像这样： >>> df.groupBy('DAY_OF_WEEK','confirmed').agg(F.count('confirmed| 3| 1|40128|+-----------+---------+-----+ 有没有办法画出这个pyspark数据帧的<

浏览 20提问于2021-09-24得票数 0

1回答

Python多处理工具vs Py(Spark)

、、、、

这是一个新手问题，因为我越来越迷惑pyspark。我想扩展现有的python数据预处理和数据分析管道。我意识到如果我用pyspark划分我的数据，我不能再把每个分区当作一个独立的pandas数据框架，需要学习如何使用pyspark.sql的行/列函数来操作，并修改很多现有的代码，再加上我一定会触发mllib库，而不能充分利用更成熟的scikit-lear

浏览 2提问于2017-06-15得票数 6

2回答

将MinMaxScaler应用于PySpark中的多列

、、

我想将MinMaxScalar of PySpark应用于PySpark数据帧df的多列。到目前为止，我只知道如何将其应用于单个列，例如x。from pyspark.ml.feature import MinMaxScaler pdf = pd.DataFrame({'x':range(3), 'y':[1,2,5], 'z':[100,200,1000对于PySpark中

浏览 0提问于2020-02-18得票数 17

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云