利用PySpark统计相邻字符串对出现的次数

全栈程序员站长

发布于 2022-07-11 16:47:55

7010

发布于 2022-07-11 16:47:55

如有文件demo.txt数据如下：

A;B;C;D;B;D;C
B;D;A;E;D;C
A;B

代码如下：

from pyspark import SparkContext


sc = SparkContext()

rdd1 = sc.textFile('demo.txt')
rdd2 = rdd1.map(lambda x: x.split(';'))


def ne(x):
    return list(zip(*[x[i:] for i in range(2)]))


rdd2.flatMap(ne).map(lambda x: (x[0] + ' , ' + x[1], 1)).reduceByKey(lambda a, b: a + b).collect()

输出结果如下：

[('A , B', 2),
 ('B , C', 1),
 ('D , B', 1),
 ('B , D', 2),
 ('D , A', 1),
 ('C , D', 1),
 ('D , C', 2),
 ('A , E', 1),
 ('E , D', 1)]

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/119507.html原文链接：https://javaforall.cn

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2021年11月，如有侵权请联系 cloudcommunity@tencent.com 删除

java

https

网络安全

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

java

https

网络安全

登录后参与评论

0 条评论

热度

利用PySpark统计相邻字符串对出现的次数

利用PySpark统计相邻字符串对出现的次数

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐