首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >火花参考表

火花参考表
EN

Stack Overflow用户
提问于 2016-01-28 09:35:37
回答 1查看 339关注 0票数 1

Spark包含一个集合,每个元素代表一个请求。

Scala函数将传递给RDD,对于每个RDD元素,该函数将创建一个修改的请求。

对于每个集合元素\请求,需要引用一个查找表。参考表的最大大小为200行。

如何实现性能和可伸缩性,如何对查找表(在函数中使用)进行建模?

  1. 火花广播变量。
  2. 分开星火RDD。
  3. Scala不变集合。

也许我还没有考虑过另一种选择。

谢谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-01-28 09:46:23

这取决于RDD的大小,但是考虑到引用表将有大约200行,我认为最好的选择是使用一个广播变量。

如果您使用一个单独的RDD,您可以创建火花来重新划分请求RDDs,并进行不必要的洗牌。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35057687

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档