文章/答案/技术大牛

发布

社区首页 >问答首页 >spark:对RDDs进行加扰并压缩

问spark:对RDDs进行加扰并压缩
EN

Stack Overflow用户

提问于 2016-12-03 04:34:19

回答 2查看 129关注 0票数 0

我有两个相同长度的RDD，我想随机地将它们压缩在一起(例如，第一个RDD是(A，B，C，D)，第二个是(W，X，Y，Z)，我想要一个随机的zip，比如(AX，BZ，CW，DY)。使用pySpark实现这一点的快速方法是什么？

python

apache-spark

pyspark

回答 2

Stack Overflow用户

发布于 2016-12-03 05:07:23

这是你需要的吗？

x = sc.parallelize(['A','B','C','D'])
y = sc.parallelize(['W','X','Y','Z'])
x = x.takeSample(False, 4)
y = y.takeSample(False, 4)
combine = zip(x,y)
combine
>> [('D', 'Z'), ('B', 'X'), ('A', 'W'), ('C', 'Y')]

票数 0

Stack Overflow用户

发布于 2016-12-05 03:53:08

您可以：

from pyspark.sql.functions import rand

s = lambda x: (x[1], x[0])

def shuffle(rdd):
    return rdd.map(lambda x: (x, )) \
              .toDF(["data"]).withColumn("rand", rand()) \
              .orderBy("rand") \
              .rdd.map(lambda x: x.data)

shuffle(rdd1).zipWithIndex().map(s).join(rdd2.zipWithIndex().map(s)).values()

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40940407

复制

相似问题

问spark:对RDDs进行加扰并压缩
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问spark:对RDDs进行加扰并压缩EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问spark:对RDDs进行加扰并压缩
EN