我有几个关于星火流的基本问题
请告诉我这些问题是否已在其他帖子中得到解答--我找不到任何答案。
(i)在星火串流中,RDD中的分区数目在默认情况下是否等于工作人员的数目?
(ii)在Spark集成的直接法中,创建的RDD分区的数量等于Kafka分区的数量。假设每个RDD分区i将映射到DStream的每一批中的同一个工作节点j是正确的吗?例如,分区到工作节点的映射是否完全基于分区的索引?例如,是否可以将分区2分配给一个批中的worker 1而在另一个批中分配给worker 3?
提前感谢
发布于 2015-10-05 19:55:01
( i)默认的并行性是核数(对于mesos来说是8个),但是分区的数量取决于输入流的实现。
(2)不,分区索引到工作节点的映射不是确定性的。如果您在与火花执行器相同的节点上运行kafka,则运行任务的首选位置将位于该分区的kafka领导人的节点上。但即便如此,任务也可能被安排在另一个节点上。
https://stackoverflow.com/questions/32873345
复制相似问题