PySpark使用
pyspark:
• pyspark = python + spark
• 在pandas、numpy进行数据处理时,一次性将数据读入 内存中,当数据很大时内存溢出,无法处理;此外...3000)
假设读取的数据是20G,设置成3000份,每次每个进程
(线程)读取一个shuffle,可以避免内存不足的情况
• 设置程序的名字
appName(“taSpark”)
• 读文件
data...) in output:
print("%s: %i" % (word, count))
spark.stop()
PySpark中的DataFrame
• DataFrame类似于Python中的数据表...())
# 使用自动类型推断的方式创建dataframe
data = [(1001, "张飞", 8341, "坦克"),
(1002, "关羽", 7107, "战士"),
(1003, "刘备",...6900, "战士")]
df = spark.createDataFrame(data, schema=['id', 'name',
'hp', 'role_main'])
print(df) #