pyspark group by and pivot TypeError_pySpark中的Pivot_pyspark中的pivot数据帧 - 腾讯云开发者社区

python-3.x、pyspark、pivot

我有一个在Pyspark上使用Jupyter Notebook的数据帧和头： | device_id | date | ad_id |event_typeevent_type分组： df3=df1.groupby('device_id','date','country','brand').pivot("event_type").count("ad_id") 我得到了这个错误： **

浏览 24提问于2020-07-19得票数 1

1回答

使用RDD在PySpark中创建数据框架

python、apache-spark、pyspark、apache-spark-sql

./.virtualenv/etl-orderlines-generic-pivot/lib/python3.7/site-packages/pyspark/context.py:566: in parallelizedata, tempFile) ../../../.virtualenv/etl-orderlines-generic-pivot/lib/python3.7/site-packages&

浏览 9提问于2022-01-24得票数 0

回答已采纳

1回答

pyspark.sql.utils.ParseException: PYSPARKSQL中的“\n输入不匹配”

sql、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我需要使用Pivot来转换表。我已经在pyspark sql中尝试过了，但遇到了问题。sqlContext.createDataFrame(b)我所面临的错误 select * from d pivot(ma

浏览 2提问于2017-12-28得票数 3

回答已采纳

1回答

与单独运行相比，具有多个聚合的吡火花旋转数据要长/冻结得多。

apache-spark、pyspark、pivot

该命令看起来如下：df_aggregate_and_pivot = df_groupby.pivot('day').agg(*aggs(pivot_col, pivot_distinct_values).agg(a, b).count()print(toc-tic)df_groupby.pivot(<e

浏览 1提问于2021-01-28得票数 1

2回答

如何将长数据转换为宽数据

pyspark、apache-spark-sql、pyspark-dataframes

我有一张数据文件看起来像：A,0.1B,0.3C,0.1如何将此转换为宽数据帧。这就是我希望得到的：A,0.1,0.2C,0.1,0.2 每个组中的记录数是相同的，以及如何在换位时创建具有前缀或后缀的一致列名？

浏览 3提问于2020-08-19得票数 0

回答已采纳

1回答

熊猫/星火/时间系列

python、pandas、dataframe、apache-spark、time-series

有任何方法来转换下表吗？预期结果：行数为400百万。有什么建议吗？在Excel中，可以这样做：

浏览 3提问于2021-07-19得票数 0

1回答

我怎样才能按不同的层次聚合，然后在内部加入火种呢？

python、pyspark、apache-spark-sql

%%sparkfrom functools import reduce shoptypes =_1 = df.groupBy("id").pivot("sh

浏览 3提问于2021-12-08得票数 0

回答已采纳

1回答

Pandas的MultiIndex操作是否等同于set_index()或un堆栈()？

python、pandas、apache-spark、pyspark、apache-spark-sql

我有一个火花DataFrame，就像：| id| timeSlot| ratio||100| lunch| 0.2||100| dinner| 0.5||101| lunch| 0.2||102| lunch| 0.4||102| dinner| 0.3| +---

浏览 2提问于2020-06-22得票数 2

回答已采纳

2回答

电火花数据爆炸串柱

python、apache-spark、pyspark、apache-spark-sql

我正在寻找一种有效的方法，将pyspark df_input中的行分解为列。我不明白这种格式的'@{name...}'，不知道从哪里开始，以解码它。谢谢你帮忙！

浏览 1提问于2022-06-14得票数 1

回答已采纳

1回答

PySpark布尔型透视

python、apache-spark、pyspark

(1,2), (2,6)) |group|value|| 0| 1|||我想要做的是按组透视此数据，以显示'value‘值的存在，如下所示： +-----+---

浏览 33提问于2018-06-08得票数 5

回答已采纳

2回答

在spark dataframe中执行透视时，'GroupedData‘对象没有属性’show

python、pandas、apache-spark、dataframe、pyspark

我想要旋转一个spark数据帧，我引用了，基于pivot函数，线索是.groupBy('name').pivot('name', values=None)。In [96]:Out[96]:当我试着向他们展示 In [9

浏览 2提问于2018-08-13得票数 8

回答已采纳

2回答

化工厂重组数据与出口

pyspark

目前，我尝试使用此代码尝试按ID进行枢轴和分组，但它不允许我显示，我也不知道如何基于“属性”将‘value’作为值：from pyspark.sql importSparkSessionimport pyspark .maste

浏览 5提问于2022-07-16得票数 0

1回答

火花矩阵变换

machine-learning、python、data、preprocessing、pyspark

让我们假设在PySpark中有以下数据：customer1 | product1 | 0.2343 customer1

浏览 0提问于2019-09-16得票数 1

回答已采纳

1回答

将SAS Proc转到焦火花

python、pyspark、sas、databricks

我正试图在databricks中将SAS proc transpose语句转换为pyspark。()函数，但是在数据大小方面遇到了一些性能问题： tst = (df.pivot_table(index=['duns'], columns=['ver'], values='finc stress')tst= sparkdf.groupBy('duns').pivot('ver').agg('finc_stress').wit

浏览 32提问于2022-05-11得票数 0

回答已采纳

1回答

多列Pyspark上的Groupby操作

python、group-by、pyspark

我已经为pyspark dataframe中的两个特性应用了groupby和计算标准差。from pyspark.sql import functions as f val1 = [('a',20,100),('a',100,100),('a',50,100),('b',0,100),('b',0,100),('c',0,0),('c',0,50),('c',0,100),('c

浏览 18提问于2019-04-15得票数 0

1回答

Python工作者在加载包含多个列的CSV文件时崩溃

python、csv、apache-spark、correlation

from pyspark import SparkContext, SparkConf .set("spark.driver.maxResultSize", "4g") pivot= sc.textFile(r"<e

浏览 1提问于2016-04-20得票数 0

回答已采纳

1回答

如何重命名列名post扁平化

python、pandas

这是2018-01-01 A 20 302018-02-01 B 30 210我想转一下上面的df df_pivot= dealer_f.pivot_table(index='Group',columns=&#x

浏览 3提问于2020-05-18得票数 1

回答已采纳

1回答

意外类型：<class‘_

python、apache-spark、dataframe、pyspark、apache-spark-sql

IntegerType)) .drop(“生产”)/usr/local/src/spark20master/spark/python/pyspark_jc.cast TypeError(“意外类型：%s”% type(dataType)) 338返回列(Jc) 339 TypeError:意外类型：

浏览 5提问于2016-11-20得票数 19

回答已采纳

1回答

如何用dataframe子部分中的另一列中的值替换一个列中的值？

dataframe、pyspark、pivot

我必须对dataframe的"activity“列执行group和pivot操作，并用"quantity”列之和填充由pivot产生的新列。但是，其中一个活动列必须使用“成本”列的总和填充。swimming | outdoor |枢轴码： df.groupBy("category").pivot但是，我找不到一个例子来说明如何在pyspark数据框架中

浏览 1提问于2022-08-01得票数 0

回答已采纳

1回答

在针对分类列的groupby().agg()操作期间，如何在Pandas和Pyspark中获得相同的结果？

pandas、dataframe、pyspark、group-by、aggregate

下面是我尝试过的代码：from pyspark.sql import SparkSession cat_col_all = ['Date', 'TrainID', 'Traintype:

浏览 3提问于2020-09-08得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云