在我的分布式系统课程中,我们开始讨论分布式计算的地图缩减模型。在地图还原架构中,拥有比映射器更多的还原剂有什么好处呢?
注意:谷歌搜索这个问题提供了关于这个问题的相互矛盾的意见。
发布于 2013-08-02 18:33:09
假设您的数据大小很小,那么您不需要运行那么多映射器来并行处理输入文件。
但是,如果映射器生成的<key,value>
对是大的和多样的,那么有更多的减缩器是有意义的,因为您可以并行处理更多的<key,value>
对。
让我们考虑一种情况,您的映射器输出有10个键,每个键都有100个值,所以如果您有10个减缩器,您可以并行处理所有的键。
现在,假设映射器输出100个键,每个键中有10个值。然后,有100个减速机将处理您的所有钥匙并行。(当然,一次运行100台减速器会涉及网络成本)
因此,根据映射器输出的数据类型,您可以决定减速器的最佳数量。
https://stackoverflow.com/questions/18023114
复制相似问题