我有一个pyspark dataframe,它包含类似下面的数据: id class price place
1 A 10 US
2 B 5 US
3 B 5 MEXICO
4 A -20 CANADA
5 C -15 US
6 C -5 US
7 D 20 MEXICO
8 A 10 CANADA
9 A -30 CANADA 我想找出价格列相对于列'class‘的总
我正在使用pandasUDF将标准的ML python库应用于pyspark DataFrame。在定义了模式并进行了预测之后,我得到了pyspark DF作为输出。现在,我想用这个预测数据帧做一些事情,例如,我尝试对列"weekly_forecast_1“中的所有值进行求和。当我应用.collect()或.toPandas()方法时,在.fit()中得到以下错误 IndexError: too many indices for array:array is 0-dimensional, but 1 were indexed 每当我尝试将.collect()或.toPandas()方
我是Spark的新手,需要使用PySpark或Spark Sql将以下输入数据帧转置为所需的输出df (从行到列)的帮助。
输入数据帧-
A B C D
1 2 3 4
10 11 12 13
......
........
所需的输出(转置)数据
A 1
B 2
C 3
D 4
A 11
B 12
C 13
D 14
....
......
如果我可以根据我们的要求旋转输入数据(列),那就更好了。
我正在使用Pyspark版本1.6处理Pyspark数据帧。在将此数据框导出到.CSV文件之前,我需要根据特定条件对特定列使用LIKE和OR运算符过滤数据。为了向您介绍我到目前为止所做的工作,我从多个.JSON文件创建了初始数据帧。此数据框已子集,因此仅包含所需的列。然后创建了一个sqlContext临时表。到目前为止,我已经尝试了两种不同的方法,使用sqlContext和使用Pyspark方法。
sqlContext方法:
df_filtered = sqlContext.sql("SELECT * from df WHERE text LIKE '#abc' OR