、创建dataframe
# 从pandas dataframe创建spark dataframe
colors = ['white','green','yellow','red','brown','pink...的一些使用
# 查看列的类型 ,同pandas
color_df.dtypes
# [('color', 'string'), ('length', 'bigint')]
# 查看有哪些列 ,同pandas...schema=['name','length'])
data.show()
data.printSchema()
# spark-方法2
# 使用...,"Dob"])
df.drop_duplicates(subset=['FirstName'])
12、 生成新列
# 数据转换,可以理解成列与列的运算
# 注意自定义函数的调用方式
# 0.创建udf...自定义函数,对于简单的lambda函数不需要指定返回值类型
from pyspark.sql.functions import udf
concat_func = udf(lambda name,age