我在PySpark中运行了一些操作,最近在我的配置(在Amazon EMR上)中增加了节点数量。但是,即使我将节点数量增加了两倍(从4个增加到12个),性能似乎没有变化。因此,我想看看新节点对Spark是否可见。
我正在调用以下函数:
sc.defaultParallelism
>>>> 2
但我认为这是在告诉我分配给每个节点的任务总数,而不是Spark可以看到的节点总数。
如何查看PySpark在集群中使用的节点数?
https://stackoverflow.com/questions/28768642
复制相似问题