除map和reduce之外,Spark还支持filter、foreach、reduceByKey、aggregate以及SQL查询、流式查询等等。...扩展库pyspark提供了SparkContext(Spark功能的主要入口,一个SparkContext表示与一个Spark集群的连接,可用来创建RDD或在该集群上广播变量)、RDD(Spark中的基本抽象...#collect()返回包含RDD中元素的列表,cartesian()计算两个RDD的笛卡尔积
[(1, 1), (1, 2), (2, 1), (2, 2)]
>>> rdd = sc.parallelize...= sc.parallelize(range(1, 6)).groupBy(lambda x: x%3).collect() #对所有数据进行分组
>>> for k, v in result:...= sc.parallelize('abcd')
>>> rdd.map(lambda x: (x, 1)).collect() #内置函数map()的并行版本
[('a', 1), ('b', 1