RDD已经做到了,但它并不是真正的可读性,所以当涉及到代码可读性时,这种方法会更好。 取这个初始的和结果的DF,包括开始的DF和我希望在执行.groupBy()之后获得的结果。toDF() 到目前为止,我尝试的是执行以下.groupBy... val resultDf = df Name .agg( selectColumn(Age),
我想在DataFrame中添加一个具有任意值的列(即每一行都相同)。messages.datetime/(1000*60*5)).alias("dt")))
/Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColu