Pyspark groupBy透视转换

、、、

我在构建下面的Pyspark数据帧操作时遇到了困难。我尝试了许多方法，但它们都很慢，而且没有利用Spark的并行性。下面是我现有的(慢，冗长)代码： #loop over category

浏览 12提问于2018-02-23得票数 0

回答已采纳

1回答

熊猫/星火/时间系列

、、、、

有任何方法来转换下表吗？预期结果：行数为400百万。有什么建议吗？在Excel中，可以这样做：将"ID“和"Time”复制到新工作表。

浏览 3提问于2021-07-19得票数 0

1回答

作为PySpark查询的SQL

、、

希望编写在pyspark中实现的完整SQL等效项。下面的代码创建一个pandas DataFrame。4# 6 b right 9# 8 c down 4 然后，下面的代码转换为pyspark DataFrame，并在name列上实现透视。(df) dp = ds.groupBy('id').pivot('name').max().toPandas(

浏览 10提问于2021-10-07得票数 2

回答已采纳

1回答

Eth1| No| +------+-------------+-----------------+--------------------+ 我需要将其转换为以下格式11|Interviewer Serve...| 48| Male| No| 我可以通过以下代码在python中对较小的数据集执行此操作- df.groupbygroupby(['respID','Serial']).first() 但是当我尝试使用PySpark<

浏览 24提问于2019-05-02得票数 1

1回答

Databricks: spark dataframe中的Python数据透视表

、

任何人都可以给我一些关于数据透视表的指导，在python语言中使用spark dataframe，我得到了以下错误:Column is not iterable 有谁知道吗？

浏览 0提问于2019-10-04得票数 1

1回答

在spark中取消透视-sql/pyspark

、、、

我手头有一个问题陈述，我想在spark-sql/pyspark中取消透视表。我已经看过文档了，我可以看到到目前为止只支持pivot，但没有支持support。有什么办法可以做到这一点吗？让我的初始表看起来像这样：当我使用下面提到的命令在pyspark中旋转它时：我将其作为输出：现在我想取消旋转工作台的枢轴一般来说，这个操作可能会/可能不会产生原始表

浏览 3提问于2017-02-26得票数 23

回答已采纳

1回答

将标记字符串转换为二进制向量pyspark

、

|| 1 | 1 | 0 | 1 | ex2 | | 2 | 0 | 1 | 1 | ex3 | 我想使用pyspark

浏览 17提问于2019-09-19得票数 0

回答已采纳

1回答

pyspark“DataFrame”对象没有属性“pivot”

、

我使用的是pyspark 2.0，我有一个如下的df： |pid | date| p_category09-30|flat +----------+----------+---------- df.groupBy-09-30|116251| +-------------+-

浏览 0提问于2016-12-13得票数 2

3回答

将pyspark* groupedData对象转换为spark Dataframe*

我必须在pyspark数据帧上进行2级分组。我的试探性的：grouped_df.groupby(["C"]).count()'GroupedData' object has no attribute 'groupby' 我想我应该首先将分组的对象转换为pySpark DF。

浏览 2提问于2017-10-18得票数 7

回答已采纳

1回答

如何在pyspark中转置数据帧？

、、、、

如何在Pyspark中转置列？我想让列变成行，行变成列。

浏览 19提问于2021-02-10得票数 2

回答已采纳

2回答

如何从PySpark中的2列中获得一行序列字符串？

、、、、

我有以下数据结构：列"s“和"d”表示"x“列中对象的转换。我想要做的是获取"x“列中的每个对象的转换字符串。例如，“新”栏如下：有使用PySpark的好方法吗？我使用PySpark尝试了以下udf代码，但它不起作用：from pyspark.sql.functions importarray_distinct from pyspark</

浏览 13提问于2022-10-19得票数 1

回答已采纳

2回答

SQL Server透视一列并保留其他列

、、、、

我正在尝试透视SQL Server中的一个表(52M+观察值)，但是我没有得到所需的结果。有15个描述，每个描述都有一个我需要透视的值。| P3 | 2016-10-31 | | | 700 我已经尝试在PySparkValue]) [ABC], [MNO]) ) AS pivot_table; 我在<

浏览 37提问于2020-09-03得票数 2

回答已采纳

1回答

从Pandas groupBy到PySpark groupBy

、、

目标是对其执行groupBy操作，而不将其转换为Pandas DataFrame。([ 'col_2'我打算用PySpark来写这个。到目前为止，我在PySpark上已经想出了类似的东西 'col_1',]).agg({ '

浏览 5提问于2017-03-14得票数 4

回答已采纳

1回答

在pyspark中的情况下的总和

、

我正在尝试将hql脚本转换为pyspark。我正在努力在groupby子句之后的聚合中实现case when语句的总和。例如： SUM(f.when((col1 == 'ABC' | col2 == 'XYZ'), 1).otherwise(0))) 在pyspark中是可能的吗？

浏览 0提问于2016-11-23得票数 1

回答已采纳

1回答

PySpark中的火花轴串

、、

----+-----+|ID_2| Jam|Toast| Egg|我的想法是： df.groupBy

浏览 3提问于2016-11-05得票数 1

回答已采纳

1回答

如何在pyspark中将一列除以其他几个子列？

、、、、

我需要将以下python代码转换为pyspark。df['GRN_ratio'] = df['GRN Quantity']/ df.groupby(['File No','Delivery Note Number'])['GRNQuantity'].transform(sum) 为此，我使用下面的Pyspark code.But，我没有得到预期的输出。df.groupby(['File

浏览 9提问于2021-05-24得票数 0

回答已采纳

2回答

有没有办法在Pyspark中动态猜测模式？

、、、、

我尝试为其中几个定义了Struct模式，如下所示- from pyspark.sql.types import StructType,StructField, StringType from pyspark.sql.functions

浏览 23提问于2021-10-02得票数 3

回答已采纳

1回答

在pyspark* dataframe中添加前缀和重置索引*

、、

last_x_month", values="arpu_sum").add_prefix('arpu_sum_l').reset_index() 但我在皮斯帕克所做的 cdr = datamonthly.groupBy

浏览 55提问于2021-08-31得票数 0

回答已采纳

1回答

Dataframe中新列的PySpark* 1.5组和*

、、、、

我试图使用groupBy和sum (使用PySpark 1.5)在中创建一个新列(“PySpark”)。我的数字列已被转换为长列或双列。用来形成groupBy的列是字符串和时间戳。我的代码如下我对错误的追踪到了那一行

浏览 2提问于2016-03-07得票数 2

回答已采纳

2回答

在spark dataframe中执行透视时，'GroupedData‘对象没有属性’show

、、、、

我想要旋转一个spark数据帧，我引用了，基于pivot函数，线索是.groupBy('name').pivot('name', values=None)。LOTTERIA|+-----------+-----------+然后我尝试对表名进行di透视In [96]: spDF.groupBy('name').pivot('name', values=Non

浏览 2提问于2018-08-13得票数 8

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

熊猫/星火/时间系列

作为PySpark查询的SQL

Pyspark 2.4中的GroupedData对象

Databricks: spark dataframe中的Python数据透视表

在spark中取消透视-sql/pyspark

将标记字符串转换为二进制向量pyspark

pyspark“DataFrame”对象没有属性“pivot”

将pyspark* groupedData对象转换为spark Dataframe*

如何在pyspark中转置数据帧？

如何从PySpark中的2列中获得一行序列字符串？

SQL Server透视一列并保留其他列

从Pandas groupBy到PySpark groupBy

在pyspark中的情况下的总和

PySpark中的火花轴串

如何在pyspark中将一列除以其他几个子列？

有没有办法在Pyspark中动态猜测模式？

在pyspark* dataframe中添加前缀和重置索引*

Dataframe中新列的PySpark* 1.5组和*

在spark dataframe中执行透视时，'GroupedData‘对象没有属性’show

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐