首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >Java Spark广播并加入两个RDDs

Java Spark广播并加入两个RDDs
EN

Stack Overflow用户
提问于 2018-07-25 05:47:37
回答 1查看 1.8K关注 0票数 1

我有一个很大的桌子JavaPairRDD<String, MySchema> RDD1和一个较小的JavaPairRDD<String, Double> RDD2。我想加入这两个RDDs,我知道最好的方法是将RDD2设置为广播变量,然后加入以减少混洗。如何处理广播部分?我的意思是,在广播之后,我将得到一个变量(列表或集合),它不再是RDD。如何将广播变量与RDD连接起来?

代码语言:javascript
复制
// I ignored the parsing part, just simplified it as loading from the files. 
JavaPairRDD<String, MySchema> RDD1 = sc.textFile ("path_to_small_dataset");
JavaPairRDD<String, Double> RDD2 = sc.textFile("path_to_large_dataset"); 

// Broadcast RDD2
Set<Tuple2<String, Double>> set2 = new HashSet<>();
set2.addAll(RDD2.collect());

// now I have set2 and RDD1, how can I join them? 
EN

回答 1

Stack Overflow用户

发布于 2018-07-25 06:23:46

假设您有两个要加入的RDD,第一个小到足以装入每个worker的内存中(smallRDD),第二个根本不需要打乱(largeRDD)。

在加入之前,您必须确保将大型RDDT转换为RDD(key,T)。键表示连接操作期间使用的列。

这段代码应该可以在Scala中完成(但基本原理在Java中是相同的)

代码语言:javascript
复制
val smallLookup = sc.broadcast(smallRDD.collect.toMap)
largeRDD.flatMap { case(key, value) =>
  smallLookup.value.get(key).map { otherValue =>
  (key, (value, otherValue))
 }
}

我希望它能帮上忙

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51507991

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档