pySpark中的Pivot

文章/答案/技术大牛

发布

1回答

与单独运行相比，具有多个聚合的吡火花旋转数据要长/冻结得多。

、、

我使用的是电火花pivot函数。我做错了什么？然而，仅在7.1秒内a就返回了：此外，仅在b上运行的对应程序在3.9

浏览 1提问于2021-01-28得票数 1

2回答

我有一个数据框架：1 A 61 C 8student_id class_A_score class_B_score class_C_score其思想是将A B C转换为3列。

浏览 29提问于2018-12-14得票数 1

回答已采纳

1回答

火花矩阵变换

、、、、

让我们假设在PySpark中有以下数据：customer1 | product1 | 0.2343customer2 | product3 | 0.3123可以有几个客户产品组合，但每一个组合都是独特的。我想以最有效的方式存档以下结果：cu

浏览 0提问于2019-09-16得票数 1

回答已采纳

1回答

我怎样才能按不同的层次聚合，然后在内部加入火种呢？

、、

我是新来的火花，我有一个数据处理数据。我想根据人的身份，但根据不同的属性，例如商店类型，和教育水平分组。%%sparkfrom functools import reduce df = spark.sql("SELECT * FROM df limi

浏览 3提问于2021-12-08得票数 0

回答已采纳

1回答

熊猫/星火/时间系列

、、、、

在Excel中，可以这样做：将"ID“和"Time”复制到新工作表。

浏览 3提问于2021-07-19得票数 0

1回答

Pandas的MultiIndex操作是否等同于set_index()或un堆栈()？

、、、、

lunch| 0.4||102| dinner| 0.3|我想将它转换成以下格式:在列中由timeSlot id 以为枢轴，以 id作为行索引，以及 ratio的聚合(和)值。0.5||102| 0.3| 0.4| 0.3|对于这样的操作= df[['morning', &#

浏览 2提问于2020-06-22得票数 2

回答已采纳

2回答

化工厂重组数据与出口

我尝试了这里显示的另一种方法：，它不适用于我的数据帧。xyzColour Blue 2 Samsung abcimport pandas as pdimport pyspark</

浏览 5提问于2022-07-16得票数 0

1回答

Pyspark:如何应用以数据帧的行作为参数的用户定义函数？

、、、

我有一个包含87列的PySpark数据格式。我希望将dataframe的每一行传递给一个函数，并为每一行获取一个列表，以便我可以单独创建一个列。('category_debit_vector',(make_range_vector(struct([pivot_card[x] for x in pivot_card.columns] ),pivot_card.columns[3:],'debit'))) 我是PySpark

浏览 0提问于2019-08-12得票数 0

1回答

Python工作者在加载包含多个列的CSV文件时崩溃

、、、

我试图用许多列加载 CSV文件，并使用Spark计算列之间的相关性。from pyspark import SparkContext, SparkConf .set("spark.driver.maxResultSize", "4g") sc = SparkContext(conf=co

浏览 1提问于2016-04-20得票数 0

回答已采纳

1回答

pyspark.sql.utils.ParseException: PYSPARKSQL中的“\n输入不匹配”

、、、、

我需要使用Pivot来转换表。我已经在pyspark sql中尝试过了，但遇到了问题。3 60101 3 220我希望它以数据透视表的形式出现138 282 220105 37 我使用的代码如下import data from

浏览 2提问于2017-12-28得票数 3

回答已采纳

1回答

作为PySpark查询的SQL

、、

希望编写在pyspark中实现的完整SQL等效项。下面的代码创建一个pandas DataFrame。(df)# id down left right up# 1 b 4 2.0 9.0 3 # 2 a 7 5.0 NaN 6 尝试在full-SQL中</

浏览 10提问于2021-10-07得票数 2

回答已采纳

1回答

pyspark中的pivot数据帧

、、

2021 3 我想让它成为支点，我已经在expression pivotdata=spark.sql("select * from test").groupby("Country").pivot("Year").sum("Value").show()下面尝试过了我得到了输出，但除了剩下的两列外，它只显示了几列 Country 2018 2019 2020 2021 US

浏览 10提问于2020-06-23得票数 1

回答已采纳

1回答

PYSPARK中的Pivot和Cumcount

、、、、

我有这个pyspark数据帧： Borough, Neighborhood, Count, Row_NumberB, MID, 10, 2BR,Neighborhood_2, Count_2, Neighborhood_3, Count_3BR, EV, 1, WB, 4, MID, 5 这是我能想到的：df.groupBy('Borough').pivot('Neighborhood')

浏览 17提问于2020-04-27得票数 0

1回答

使用RDD在PySpark中创建数据框架

、、、

我正在尝试创建一个函数，它将接受dict和schema作为输入，并返回一个数据框架，自动将未指定的字段填充为null。schema.fields, row_dict)) for row_dict in values)] schema我就是这样调用这个函数的：data, tempFile) ../../../.virtualenv/etl-orderlines-generic-pivot/lib/python

浏览 9提问于2022-01-24得票数 0

回答已采纳

1回答

旋转一个流数据帧pyspark

、、、、

我有一个来自kafka的流式数据帧，我需要旋转两列。这是我目前使用的代码： streaming_df = streaming_df.groupBy('Id','Date')\spark.sql("select * from stream").show(20, False) query.stop() ` 我收到以下错误：pyspark.sql.

浏览 16提问于2021-07-14得票数 1

回答已采纳

1回答

将(铸)列转换为火花放电中的行

、

我有一个火花数据格式，在下面的格式，每个唯一的id可以有最多3行，这是由秩列。0.186840048 9748 0.173447074我想不出如何在Pyspark中实现它。用于输入数据创建的示例代码：from pyspark.sql.functions import col, explode, arra

浏览 2提问于2021-10-21得票数 0

回答已采纳

1回答

不使用pandas转换行和列

、、、

我有一个只有两列的数据帧。我尝试将一列的值转换为标题，将另一列的值转换为其值。已尝试使用pivot和all，但不起作用。df_pivot_test = sc.parallelize([('a',1), ('b',1), ('c',2), ('d',2), ('e',10)]).toDF(["id","score"])

浏览 3提问于2019-10-01得票数 0

2回答

SQL Server透视一列并保留其他列

、、、、

我正在尝试透视SQL Server中的一个表(52M+观察值)，但是我没有得到所需的结果。有15个描述，每个描述都有一个我需要透视的值。| P3 | 2016-10-31 | | | 700 我已经尝试在PySpark和SQL中实现了这一点，但是没有得到一个有效的结果。IN ( [XYZ],

浏览 37提问于2020-09-03得票数 2

回答已采纳

1回答

pyspark group by and pivot TypeError

、、

浏览 24提问于2020-07-19得票数 1

1回答

Databricks: spark dataframe中的Python数据透视表

、

任何人都可以给我一些关于数据透视表的指导，在python语言中使用spark dataframe，我得到了以下错误:Column is not iterable 有谁知道吗？

浏览 0提问于2019-10-04得票数 1

点击加载更多

与单独运行相比，具有多个聚合的吡火花旋转数据要长/冻结得多。

pySpark中的Pivot

火花矩阵变换

我怎样才能按不同的层次聚合，然后在内部加入火种呢？

熊猫/星火/时间系列

Pandas的MultiIndex操作是否等同于set_index()或un堆栈()？

化工厂重组数据与出口

Pyspark:如何应用以数据帧的行作为参数的用户定义函数？

Python工作者在加载包含多个列的CSV文件时崩溃

pyspark.sql.utils.ParseException: PYSPARKSQL中的“\n输入不匹配”

作为PySpark查询的SQL

pyspark中的pivot数据帧

PYSPARK中的Pivot和Cumcount

使用RDD在PySpark中创建数据框架

旋转一个流数据帧pyspark

将(铸)列转换为火花放电中的行

不使用pandas转换行和列

SQL Server透视一列并保留其他列

pyspark group by and pivot TypeError

Databricks: spark dataframe中的Python数据透视表

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐