3 RDD(核心):
创建初始RDD有三种方法(用textFile时默认是hdfs文件系统):
使用并行化集合方式创建
?...这里主要就是使用了parallelize方法,至于collect下面会有详细介绍
使用本地文件创建:
进行一个wordcount任务
sparktest.txt
?
?...一些算子介绍:
map:就是对每一条输入进行指定操作,为每一条返回一个对象:
?...可以看到使用map时实际上是[ [0,1,2,3,4],[0,1,2],[0,1,2,3,4,5,6] ]
类如切分单词,用map的话会返回多条记录,每条记录就是一行的单词,
而用flatmap则会整体返回一个对象即全文的单词这也是我们想要的...fold:对每个分区给予一个初始值进行计算:
?
countByKey:对相同的key进行计数:
?
countByValue:对相同的value进行计数
?
takeSample:取样
?