有一个针对大量数据的hadoop map-red作业。map阶段需要很长时间才能完成(~2-3天)。它完成了。
但在reduce阶段,任务失败的概率约为92%。是否可以检索成功的map任务执行的输出/计算,以便只需要重新运行reduce阶段?
运行hadoop1.2.1,Java7,单节点linux系统。
发布于 2013-11-02 16:49:19
不这不可能。如果您的映射器的逻辑是计算密集型的(而不是IO繁重的),那么您可以使用MultithreadedMapper多线程,或者尝试将作业拆分为两个作业。然后,第二个作业将只“标识映射”运行时间较长的前一个作业的输出。
https://stackoverflow.com/questions/19739754
复制相似问题