为了设计一些算法,我需要模拟map-reduce环境。我假设我有两个作业,每个作业都由一组map和reduce任务组成。我必须对map和reduce任务的处理时间做出假设。例如,作业"j1“有3个map任务和2个reduce任务。那么,map任务与reduce任务在处理时间上有什么限制吗?通常是怎么回事?
发布于 2012-12-13 22:43:11
如果不知道map和reduce任务的作用,就很难做出任何假设。map或reduce任务的处理时间完全取决于您希望它们做什么,您不能真的做一个概括性的假设。
例如,您的单个map函数可以处理单个文件作为输入,或者处理单个行或单个单词,所有这些都直接影响处理时间。
reducer也是如此;它可以做很多处理,也可以做很少的处理,甚至根本不做处理。(使用Hadoop的MapReduce实现,您甚至不需要为您的MapReduce任务使用reducer,这证明了处理量是不同的)。这只取决于单个任务需要什么。
如果您知道模拟的MapReduce作业实际在做什么,就可以使用它来确定不同任务的一般处理时间。
https://stackoverflow.com/questions/13851211
复制相似问题