我需要迭代pyspark.sql.dataframe.DataFrame.DataFrame的行。我以前在pandas中用iterrows()函数做过,但我需要在不使用pandas的情况下为pyspark找到类似的东西。如果我执行for row in myDF:,它将迭代columns.DataFrame
谢谢
我们如何在dataframe中的列中迭代以单独对同一数据same中的部分或所有列执行计算,而不为单个列创建不同的数据same(类似于map在rdd中遍历行,并在行上执行计算而不为每一行创建不同的rddl = list of column namesdef plusone(df_column):
return (df_column + 1)getattribute(df,l[x]))) if x ==0 els
我想修改它以在PySpark中工作,但不知道如何继续。问题是我不能迭代PySpark中的一个列,并且我已经尝试将它变成一个函数,但没有成功。上下文: DataFrame有一个名为City的列,它只是作为字符串的城市名称
cities = [i.City for i in df.select('City').distinct().collect如何为PySpark处理此问题?
在PySpark中,我们不能使用传统的熊猫或R风格的符号来根据DataFrame中的旧列来制作新的列。例如,假设我试图连接两列:df['newcol'] = F.concat(df['col_1'], df['col_2'])
结果:TypeError: 'DataFrame' object does not suppor