前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >spark中flatMap函数用法–spark学习(基础)「建议收藏」

spark中flatMap函数用法–spark学习(基础)「建议收藏」

作者头像
全栈程序员站长
发布2022-09-01 15:24:57
9360
发布2022-09-01 15:24:57
举报
文章被收录于专栏:全栈程序员必看

大家好,又见面了,我是你们的朋友全栈君。

说明

在spark中map函数和flatMap函数是两个比较常用的函数。其中 map:对集合中每个元素进行操作。 flatMap:对集合中每个元素进行操作然后再扁平化。 理解扁平化可以举个简单例子

代码语言:javascript
复制
val arr=sc.parallelize(Array(("A",1),("B",2),("C",3)))
arr.flatmap(x=>(x._1+x._2)).foreach(println)

输出结果为

代码语言:javascript
复制
A
1
B
2
C
3

如果用map

代码语言:javascript
复制
val arr=sc.parallelize(Array(("A",1),("B",2),("C",3)))
arr.map(x=>(x._1+x._2)).foreach(println)

输出结果

代码语言:javascript
复制
A1
B2
C3

所以flatMap扁平话意思大概就是先用了一次map之后对全部数据再一次map。

实际使用场景

这个场景是我曾经在写代码过程中遇到的难题,在字符串中如何统计相邻字符对出现的次数。意思就是如果有A;B;C;D;B;C字符串,则(A,B),(C,D),(D,B)相邻字符对出现一次,(B,C)出现两次。 如有数据

代码语言:javascript
复制
A;B;C;D;B;D;C
B;D;A;E;D;C
A;B

统计相邻字符对出现次数代码如下

代码语言:javascript
复制
data.map(_.split(";")).flatMap(x=>{
      for(i<-0 until x.length-1) yield (x(i)+","+x(i+1),1)
    }).reduceByKey(_+_).foreach(println)

输出结果为

代码语言:javascript
复制
(A,E,1)
(E,D,1)
(D,A,1)
(C,D,1)
(B,C,1)
(B,D,2)
(D,C,2)
(D,B,1)
(A,B,2)

此例子就是充分运用了flatMap的扁平化功能。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/140836.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年5月2,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 说明
  • 实际使用场景
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档