Spark包含一个集合,每个元素代表一个请求。
Scala函数将传递给RDD,对于每个RDD元素,该函数将创建一个修改的请求。
对于每个集合元素\请求,需要引用一个查找表。参考表的最大大小为200行。
如何实现性能和可伸缩性,如何对查找表(在函数中使用)进行建模?
也许我还没有考虑过另一种选择。
谢谢
发布于 2016-01-28 09:46:23
这取决于RDD的大小,但是考虑到引用表将有大约200行,我认为最好的选择是使用一个广播变量。
如果您使用一个单独的RDD,您可以创建火花来重新划分请求RDDs,并进行不必要的洗牌。
https://stackoverflow.com/questions/35057687
复制相似问题