在我的scala程序中,我有一个包含两列a和b (都是Int类型)的dataframe df。另外,我有一个先前定义的对象obj,其中包含一些方法和属性。在这里,我想使用来自obj的dataframe和属性的当前值向dataframe df添加一个新列。f来创建新的列c,如下所示: +---+---+-----+
| a | b
我想添加一个新列new_col,如果列a的值在yes_list中,则在new_col中该值为1,否则为0 from pyspark import SparkContext
sc = SparkContext.getOrCreatey'] 如下所示: rdd_df.withColumn("new_col", [1 if val in yes_list else 0 for val in rdd_df["a"]]) 但以上是不正确的,
我试图使用Pyspark在dataframe中更改一个列,也就是跨行对单个列的所有值进行洗牌。我试图避免这样的解决方案,即在将列拆分并分配索引列之前,将其重新连接到原始的dataframe,而原始dataframe也有一个添加的索引列。# for some dataframespark_df
new_df =