我正在尝试在一个pyspark dataframe中创建一个新列,该列基于另一个列的内容。另一列包含所有整数,我希望新列使用1或0进行编码。import pyspark.sql.functions as F
df2 = df2.withColumn('Industrial', F.when(F.col('CODE') in (1,2,3,4EDIT:对其他人可能仍然有用,因为它
我有一个大数据与天气列,可以采取5个不同的数值(晴天,多云,雨,雪和其他)。我必须添加另一列,更多的信息,完全取决于天气值(例如。如果是晴天,将值x添加到新列,如果是阴天,则添加值y,.)。要么使用另一个具有天气列(此列上的join )和一个"new_data“列来添加这些新值(5行和2列)的小数据行进行连接,要么使用一个字典将数据的每一行映射为一个以天气值作为键和要添加的新数据作为值的字典, "snow": m, &qu