我对Pyspark还是个新手。我有一个数据框架,我想用col1和col2之间的均方根计算创建第三列。我使用了一个用户定义的lambda函数来计算均方根值,但是一直收到这个错误AttributeError: 'int' object has no attribute 'mean' from pyspark.sql.functionsimport udf,col
from pyspark.sql.types impo
我正在尝试在一个pysparkdataframe中创建一个新列,该列基于另一个列的内容。另一列包含所有整数,我希望新列使用1或0进行编码。import pyspark.sql.functions as F
df2 = df2.withColumn('Industrial', F.when(F.col('CODE
我有一个dataframe,它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同,每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时,将字典(行)附加到列表中。for item in row.json_object['obj']:
# create a dic