我有一个pyspark数据帧作为
DOCTOR | PATIENT
JOHN | SAM
JOHN | PETER
JOHN | ROBIN
BEN | ROSE
BEN | GRAY
并且需要按行连接患者姓名,这样我就可以得到如下输出:
DOCTOR | PATIENT
JOHN | SAM, PETER, ROBIN
BEN | ROSE, GRAY
有没有人能帮我在pyspark中创建这个数据帧?
提前谢谢。
我有一个PySpark RDDs的字典,正在尝试将它们转换为数据帧,将它们保存为变量,然后连接它们。当我尝试将其中一个RDDs转换为数据帧时,出现以下错误:
File "./spark-1.3.1/python/pyspark/sql/types.py",
line 986, in _verify_type
"length of fields (%d)" % (len(obj), len(dataType.fields)))
ValueError: Length of object (52) does not match with length of
在2数据帧上执行简单连接时,pyspark不返回输出数据。
from pyspark.sql import *
import pyspark.sql.functions as F
from pyspark.sql.functions import col
spark = SparkSession.builder.master("local").appName("test").getOrCreate()
file_path="C:\\bigdata\\pipesep_data\\Sales_ny.csv"
df=spark.read.form
我是来自pyspark的pandas的初学者,我想用pandas编写以下sql查询:
select sum(col) as sum_col, count(other_col) as count_other_col from pandas_df
我想让它返回一个新的数据帧。
谢谢。
我发现了返回计数或合计的代码,但从未在新的数据帧中返回过
我想使用PySpark应用程序在远程Postgres服务器上使用执行以下查询
SELECT id, postgres_function(some_column) FROM my_database GROUP BY id
问题是,我不能使用spark.sql(QUERY)对Pyspark执行这种查询,很明显,因为postgres_function不是ANSI函数。
我用的是星火2.0.1和Postgres 9.4。
我尝试通过json数据(使用spark.sql)在pyspark数据帧中查询hive表,但出现了以下错误 ERROR log: error in initSerDe: java.lang.ClassNotFoundException Class org.apache.hive.hcatalog.data.JsonSerDe not foundjava.lang.ClassNotFoundException: Class org.apache.hive.hcatalog.data.JsonSerDe not found
我才刚刚开始深入了解Pyspark。
这里有一个数据集,其中包含一些我将在下面演示的值,以询问我无法创建的查询。
这是一个包含大约20K行的实际数据集的示例。我在pyspark shell中将这个CSV文件作为数据帧读取。尝试在此数据上转换一些基本的SQL查询以获得实际操作。下面是一个我不能回答的问题:
1. Which country has the least number of Government Type (4th Column).
还有一些我自己手动创建的查询,我可以用SQL执行,但我只是被困在理解其中的一个上。如果我对此有了一个想法,它将与解决其他问题相当相关。
这是我
我正在寻找等同于pandas数据帧的pyspark。特别是,我想对pyspark dataframe执行以下操作
# in pandas dataframe, I can do the following operation
# assuming df = pandas dataframe
index = df['column_A'] > 0.0
amount = sum(df.loc[index, 'column_B'] * df.loc[index, 'column_C'])
/ sum(df.loc[index, &
from pyspark.sql.functions import *
from pyspark.sql.types import *
我试图将数据帧转换为df.column.cast(ShortType()),但当我尝试插入数据99999时,它正在转换为null而不会抛出任何错误,所以您能否建议在转换时抛出错误的任何方法。
在执行pyspark dataframe自连接时,我收到一条错误消息: Py4JJavaError: An error occurred while calling o1595.join.
: org.apache.spark.sql.AnalysisException: Resolved attribute(s) un_val#5997 missing from day#290,item_listed#281,filename#286 in operator !Project [...]. Attribute(s) with the same name appear in the oper