pyspark中的pivot数据帧

文章/答案/技术大牛

发布

1回答

、、

2021 3 我想让它成为支点，我已经在expression pivotdata=spark.sql("select * from test").groupby("Country").pivot("Year").sum("Value").show()下面尝试过了我得到了输出，但除了剩下的两列外，它只显示了几列 Country 2018 2019 2020 2021 US

浏览 10提问于2020-06-23得票数 1

回答已采纳

1回答

旋转一个流数据帧pyspark

、、、、

我有一个来自kafka的流式数据帧，我需要旋转两列。这是我目前使用的代码： streaming_df = streaming_df.groupBy('Id','Date')\spark.sql("select * from stream").show(20, False) query.stop() ` 我收到以下错误：<em

浏览 16提问于2021-07-14得票数 1

回答已采纳

2回答

使用python将两个spark数据帧合并到一个模式中

、、、

我有两个不同的pyspark数据帧，需要合并成一个。有一些逻辑需要为合并编码。其中一个数据帧具有以下模式：(id，类型，计数)，另一个具有模式：(id，timestamp，test1，test2，test3) 第一个数据帧是通过sql "group by“查询创建的。可以有重复的ids，但ids的类型将有所不同。并且，对于给定的类型，有一个相关的计数。

浏览 46提问于2020-01-29得票数 0

回答已采纳

1回答

Pyspark groupby列，同时有条件地对另一列进行计数

、

我需要在使用groupBy时从pyspark获得条件输出的帮助。LogOn|Success|| 2| LogOn|Success|下表显示了我想要的内容|+----+-----------+-------+ 总体而言，我尝试按时间分组并填充新列，最好是让代码填充列名，因为我不会总是有一个完整的列表和计数我知道我正在尝试做的一部

浏览 1提问于2018-10-08得票数 0

2回答

化工厂重组数据与出口

我尝试了这里显示的另一种方法：，它不适用于我的数据帧。我有一个数据文件，如下所示：-------------------------------------------xyzColour Blue 2 Samsung abcimp

浏览 5提问于2022-07-16得票数 0

1回答

如何在pyspark中实现不带聚合函数的数据透视表

、

我在pyspark中有一个这样的数据帧。pyspark dataframe的pivot函数需要聚合函数，在我的例子中，col_1也不是唯一的。

浏览 1提问于2020-03-21得票数 0

2回答

pySpark中的Pivot

我有一个数据框架：1 A 61 C 8student_id class_A_score

浏览 29提问于2018-12-14得票数 1

回答已采纳

2回答

SQL Server透视一列并保留其他列

、、、、

我正在尝试透视SQL Server中的一个表(52M+观察值)，但是我没有得到所需的结果。有15个描述，每个描述都有一个我需要透视的值。原始数据帧： ID | Date | Description| Value [ABC], [XYZ

浏览 37提问于2020-09-03得票数 2

回答已采纳

1回答

如何在pyspark中透视包含动态列的表

、、、

在Pyspark中，是否有可能同时为不同的列创建透视图？我有一个这样的数据帧： sdf = spark.createDataFrame(| 2 | 7 | 8 | 3 | +----+------+------+-------+ 我想要在多个列(val1，val2，...)上透视这个数据帧

浏览 15提问于2019-10-09得票数 2

回答已采纳

5回答

如何在pyspark环境下使用matplotlib和pandas进行绘图？

、、、、

我有一个非常大的pyspark数据帧，我取了一个样本，把它转换成pandas数据帧。sample = heavy_pivot.sample(False, fraction = 0.2, seed = None)数据帧如下所示101272 0.1666678 1020561 0.000000 9 1023646

浏览 2提问于2018-05-09得票数 1

1回答

包含空格的列的saveAsTable失败

、、、、

我有一段pyspark代码，用于将数据帧转换为物理表：如果数据帧df包含名称中包含空格的列则会失败，并显示以下错误： 18/03/08 10:33:29 ERROR CreateDataSourceTableAsSelectCommand: Failed to write to table pivot<

浏览 4提问于2018-03-08得票数 1

2回答

在spark dataframe中执行透视时，'GroupedData‘对象没有属性’show

、、、、

我想要旋转一个spark数据帧，我引用了，基于pivot函数，线索是.groupBy('name').pivot('name', values=None)。这是我的数据集， Out[75]: |customer_id| name|spDF.groupBy('name').piv

浏览 2提问于2018-08-13得票数 8

回答已采纳

1回答

如何在SQLTransformer ML中创建自定义PySpark以枢轴数据

、、、

我有一个类似于以下结构的数据框架：training = spark.createDataFrame([# Attempt 1 .withColumn("week_of_year",") \ .sum("amount")

浏览 0提问于2018-08-23得票数 3

1回答

如何用dataframe子部分中的另一列中的值替换一个列中的值？

、、

浏览 1提问于2022-08-01得票数 0

回答已采纳

1回答

熊猫/星火/时间系列

、、、、

原始数据：预期结果：行数为400百万。有什么建议吗？在Excel中，可以这样做：将"ID“和"Time”复制到新工作表。

浏览 3提问于2021-07-19得票数 0

1回答

如何在Pyspark中创建多个计数列？

、、、

我有title和bin的数据| Title| bin| +---------------------+-------------+| 1| 1 | 3| +--

浏览 2提问于2022-01-15得票数 1

回答已采纳

1回答

如何对火花放电数据帧中的单个列进行整形操作？

、、、、

我有一个很长的火花放电数据文件，如下所示：|number||12.4 ||42.3 ||42.3 ||44.2 ||45.4 |理想情况下，我希望将其重塑为nxn矩阵，其中n是sqrt(length of pyspark dataframe)。虽然有一个解决方案，方法是将它转换成一个numpy数组，然后将其重组为nxn矩阵，但我希望这是在pyspark中完成<e

浏览 1提问于2021-03-25得票数 2

回答已采纳

1回答

将数组拆分为列pyspark-array length变量

、、、

在pyspark中，我遇到了将数组拆分成单独列的问题。数组长度可变(范围为0-2064)。我试图重用我发现的一段代码，但由于数据太大，它不起作用。这是我在将数组转换为字符串(dec_spec_str)后尝试的部分。这需要永远的时间。任何帮助都是非常感谢的。string")).alias("name"), f.expr("dec_spec_str[pos]").alias("va

浏览 82提问于2020-11-01得票数 0

2回答

将PySpark数据帧转换为PySpark.pandas数据帧

、、

在链接中，用户可以在Spark3.2中的PySpark之上与熊猫合作。是否需要很长时间才能将PySpark数据帧转换为PySpark熊猫数据框架？我知道将PySpark数据帧转换为熊猫数据框架需要很长时间。

浏览 9提问于2022-03-02得票数 1

回答已采纳

1回答

Pandas版本0.22.0 - drop_duplicates()获得意外的关键字参数'keep‘

、、、

我正在尝试使用子集(drop_duplicates=‘’，keep=False)在我的数据帧中删除重复项。显然，它在我的Jupyter Notebook中工作正常，但当我试图通过终端以.py文件的形式执行时，我得到了以下错误： Traceback (most recent call last): File"/home/source/fork/PySpark_Analytics/Notebo

浏览 110提问于2019-06-20得票数 1

点击加载更多

pyspark中的pivot数据帧

旋转一个流数据帧pyspark

使用python将两个spark数据帧合并到一个模式中

Pyspark groupby列，同时有条件地对另一列进行计数

化工厂重组数据与出口

如何在pyspark中实现不带聚合函数的数据透视表

pySpark中的Pivot

SQL Server透视一列并保留其他列

如何在pyspark中透视包含动态列的表

如何在pyspark环境下使用matplotlib和pandas进行绘图？

包含空格的列的saveAsTable失败

在spark dataframe中执行透视时，'GroupedData‘对象没有属性’show

如何在SQLTransformer ML中创建自定义PySpark以枢轴数据

如何用dataframe子部分中的另一列中的值替换一个列中的值？

熊猫/星火/时间系列

如何在Pyspark中创建多个计数列？

如何对火花放电数据帧中的单个列进行整形操作？

将数组拆分为列pyspark-array length变量

将PySpark数据帧转换为PySpark.pandas数据帧

Pandas版本0.22.0 - drop_duplicates()获得意外的关键字参数'keep‘

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐