我有一个EMR设置,包含4台r3.4X大型计算机(总共128 to (32G/节点)和1000 to(250 To)的SSD分配给alluxio)。
我已经加载了大约650 of的ORC数据。但是我可以看到3个工作者已经使用了80%以上的分配空间,但其中一个工作者只使用了1%。
有没有办法将数据均匀地分布在所有的工作人员中?
提前感谢
发布于 2018-10-03 17:26:21
通常,当Alluxio客户端从UFS读取数据时,客户端会将数据缓存到本地工作进程。如果数据分布存在很大的不平衡,则可能表明任务分布不均匀。
有一个Alluxio客户端配置参数,它可以更改将数据缓存到Alluxio时的默认行为。例如,您可以设置:
alluxio.user.file.write.location.policy.class=alluxio.client.file.policy.RoundRobinPolicy
to change the write location policy to round robin,这将使数据更均匀地分布在工作进程中。此配置参数必须在Alluxio客户端上更新,这取决于您正在使用的特定框架。
https://stackoverflow.com/questions/49841651
复制