、创建dataframe
# 从pandas dataframe创建spark dataframe
colors = ['white','green','yellow','red','brown','pink...df=df.rename(columns={'a':'aa'})
# spark-方法1
# 在创建dataframe的时候重命名
data = spark.createDataFrame(data...# 2.选择几列的方法
color_df.select('length','color').show()
# 如果是pandas,似乎要简单些
df[['length','color']]
# 3...转json,转完是个rdd
color_df.toJSON().first()
5、排序
# pandas的排序
df.sort_values(by='b')
# spark排序
color_df.sort...类似 pandas 的 where 或者 combine_first 方法
# pandas
#where即if-else函数
np.where(isnull(a),b,a)
# combine_first