一、PySpark入门①定义Apache Spark 是一个用于大规模数据处理的统一分析引擎。...RDD → RDD迭代计算 → RDD导出为列表、元组、字典、文本文件或数据库等。...、文本文件或数据库等图片④构建PySpark执行环境入口对象SparkContext是PySpark的入口点,负责与 Spark 集群的连接,并提供了创建 RDD(弹性分布式数据集)的接口。...、dict 或 str 的列表)参数numSlices: 可选参数,用于指定将数据划分为多少个分片# 导包from pyspark import SparkConf,SparkContext# 创建SparkConf...sc.stop()输出结果:1, 2, 3, 4, 51, 2, 3, 4, 5'a', 'b', 'c', 'd', 'e', 'f', 'g'1, 2, 3, 4, 5'key1', 'key2'【注意】对于字符串