说明
在spark中map函数和flatMap函数是两个比较常用的函数。其中
map:对集合中每个元素进行操作。
flatMap:对集合中每个元素进行操作然后再扁平化。...理解扁平化可以举个简单例子
val arr=sc.parallelize(Array(("A",1),("B",2),("C",3)))
arr.flatmap(x=>(x._1+x._2)).foreach...sc.parallelize(Array(("A",1),("B",2),("C",3)))
arr.map(x=>(x._1+x._2)).foreach(println)
输出结果
A1
B2
C3
所以flatMap...如有数据
A;B;C;D;B;D;C
B;D;A;E;D;C
A;B
统计相邻字符对出现次数代码如下
data.map(_.split(";")).flatMap(x=>{
for(i<-0...foreach(println)
输出结果为
(A,E,1)
(E,D,1)
(D,A,1)
(C,D,1)
(B,C,1)
(B,D,2)
(D,C,2)
(D,B,1)
(A,B,2)
此例子就是充分运用了flatMap