Java Hadoop - reducer的输入可以是reducer的输出吗？ - 腾讯云开发者社区

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

Java Hadoop - reducer的输入可以是reducer的输出吗？

、、

我正在编写一个包含(目前)3个map-reduce阶段的map-reduce程序。我需要对第三阶段reduce的输出做另一次reduce -我可以使用身份映射(获取(key, value)并输出它们而不做任何更改)，但我不想做额外的映射(时间和资源方面)，而是希望简单地将它们传递给reducer有可能吗？如果是这样，我该如何编码“作业”呢？我可以发布我的整个代码，如果它可能会有帮助的话(也许我在前3个阶段做了一些多余的/不

浏览 12提问于2017-01-18得票数 1

回答已采纳

1回答

如何在Hadoop集群上运行Hadoop Streaming？

、、、

目前我有一个有3个节点的Hadoop集群(Ubuntu) 我想运行带有Hadoop流的python /R脚本，但是我不确定仅仅执行HS是否真的能使所有节点工作如果可能，请告诉我在群集上运行流的方向

浏览 21提问于2020-04-25得票数 0

3回答

hadoop作业输出文件

、、

我目前正在运行一个hadoop oozie作业。输出文件是自动生成的。输出文件的预期数量只有一个；但是，有两个名为part-r-00000和part-r-00001的输出文件。有人能告诉我为什么吗？另外，如何将输出文件设置为part-r-00000？

浏览 0提问于2016-02-27得票数 0

2回答

似乎在我的reducer类中没有运行减速器方法。

、

我有一个样本输入文件如下，其中包括序号，名称，药品，性别，金额支出。我的要求是得到每一种药物的总花费。我已经编写了一个Mapreduce程序，并在本地机器上运行它，在一个节点集群中安装了Hadoop和其他必要的包。输出似乎只是一个Mapper输出，由于某种原因，Reduceer类中的Reduceer方法没有运行。有人能帮我弄清楚到底发生了什么吗。在我的第二个例子中输出。，因为我刚刚开始我的

浏览 0提问于2016-04-12得票数 0

2回答

如何在映射器或还原器中运行外部程序，将HDFS文件作为输入，并将输出文件存储在HDFS中？

、

我有一个外部程序，它接受文件作为输入并给出输出文件 input file: IN_FILE我想要HDFS中的输入和输出文件 //1 input fileI can use

浏览 0提问于2013-05-03得票数 1

1回答

Hadoop中的I/O设置

、

job.setMapOutputKeyClass()job.setOuputKeyClass()以避免Java泛型中的类型擦除问题。难道我们不总是需要设置所有这些方法吗？

浏览 1提问于2013-11-22得票数 1

1回答

管道命令行hadoop流作业

、、、

我想让我的hadoop流媒体工作。但是我想使用第一步的输出作为我的mapreduce作业的第二步的输入，而不是存储在hdfs中，可能输出为stdout。有没有像linux管道这样的东西？如hadoop jar hadoop-streaming.jar -mapper map1.py -reducer reducer.py -input xx |

浏览 3提问于2016-02-06得票数 1

2回答

一个完全分布的Hadoop/MapReduce程序有任何方法让它的单个节点读取本地输入文件吗？

、、

我正在尝试设置一个完全分布式的Hadoop/MapReduce实例，其中每个节点将在一些输入上运行一系列C++ Hadoop流任务。但是，我不想将所有输入任务移到HDFS上，而是想看看是否有一种方法可以从每个节点的本地文件夹读取输入数据。 -file map_example \ -file reduce

浏览 3提问于2011-11-20得票数 1

1回答

在Reducer类中运行和减少mehods

、

有人能帮助我解释Reducer类中run()和减()方法的执行流程吗？我正在努力计算我的MapReduce工作中单词数的平均值。我的Reducer类接收作为键值对的"word“和”可迭代事件“。我的目标是计算文档中所有单词的平均字数。还原器中的run()方法可以遍历所有键并计数所有单词数吗？然后，我可以使用这个和通过循环遍历每个带键的<

浏览 1提问于2014-07-20得票数 0

回答已采纳

1回答

ClassCastException无法将可写内容转换为文本

、

它看起来是这样的： import org.apache.hadoop.io.ArrayWritable;public class TextArrayWritable映射器代码如下所示： import java.io.IOException; import org.apache.hadoop.io.Textreducer</em

浏览 30提问于2020-09-10得票数 0

1回答

对hadoop减速器输出进行迭代读取。

、、

);然后我检查我的减速机日志(最后8K，我找到了这个：这意味着我的减速器输出再次被输入到减速机中。这应该是hadoop的工作方式，对吧？不应该重复..。我的

浏览 0提问于2013-09-16得票数 0

回答已采纳

1回答

为什么Mapper的输出键/值需要与输出键/值ofCombiner的输出键/值相同

、、

我研究了Combiner通过减少数据节点级别上的映射器输出而提供的优化。at q1$avg_reducer.reduce

浏览 1提问于2021-02-13得票数 0

回答已采纳

2回答

Hadoop: Reducer被调用两次

、

我和Hadoop在EMR上合作。我写了一个简单的程序，只运行一个map-reduce进程。我得到的输出并不是我所期望的，并且通过调试打印，我发现reducer实际上被调用了两次:一次使用映射器的输出作为输入，第二次使用第一个reducer的输出作为输入。最后，reducer第二次运行的输出就是我得到的<

浏览 3提问于2014-08-22得票数 1

1回答

C#和Mono的Hadoop流: IdentityMapper被错误地使用

、、

我有用C#编写的映射器和还原器可执行文件。我想把这些和Hadoop流一起使用。–mapper "mono mapper.exe" -file "mapper.exe" -file "reduce

浏览 3提问于2012-11-02得票数 12

1回答

复杂类型的reducer的ReadFields()中的缓冲区为空

、、

我试图在映射器和reducer之间传递一个复杂的可写式，更具体地说是ObjectWritables的ArrayWritable。：Mapper<LongWritable, Text, Text, ObjectArrayWritable>reducer在可写接口的readfields()方法上

浏览 2提问于2011-05-06得票数 1

7回答

python中出现Hadoop流作业失败错误

、、

日志文件中的错误at(PipeMapRed.java:545)at org.apache.hadoop.mapred.MapRunner.run(MapTask.

浏览 0提问于2010-12-16得票数 22

回答已采纳

1回答

为python运行hadoop流(Version2.6.5)时的类

、、、

每当我试图运行这段代码来执行python中的map-还原代码时，我就会得到一个classnotfoundexception.。我目前正在使用hadoop-2.6.5。输入： hadoop jar /usr/local/hadoop1/share/hadoop/tools/sources/hadoop-streaming-2.6.5-test-sources.jar/home

浏览 0提问于2017-04-29得票数 0

4回答

如何向python Hadoop流式作业传递参数？

、、

对于python Hadoop流作业，我如何将参数传递给，例如，reducer脚本，以使其根据传入的参数表现不同？我知道流式作业的调用格式为： hadoop jar hadoop-streaming.jar -input -output -mapper mapper.py -reducer reducer.py .我想影响reducer.py。

浏览 1提问于2012-03-01得票数 10

2回答

在hadoop上的一个流作业中使用多个映射器输入？

、、

在java中，我将使用：若要为每个映射程序添加多个输入，请使用不同的映射程序。现在我使用python在hadoop中编写一个流作业，可以完成类似的工作吗？

浏览 1提问于2012-08-29得票数 2

1回答

学习Mapreduce:计算的是reducer还是mapper

、、、

在由select count(*) from products where id = 2组成的mapreduce作业中，count(*)操作发生在哪里，是在映射器中还是在reducer中？

浏览 13提问于2020-06-16得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Java Hadoop - reducer的输入可以是reducer的输出吗？

如何在Hadoop集群上运行Hadoop Streaming？

hadoop作业输出文件

似乎在我的reducer类中没有运行减速器方法。

如何在映射器或还原器中运行外部程序，将HDFS文件作为输入，并将输出文件存储在HDFS中？

Hadoop中的I/O设置

管道命令行hadoop流作业

一个完全分布的Hadoop/MapReduce程序有任何方法让它的单个节点读取本地输入文件吗？

在Reducer类中运行和减少mehods

ClassCastException无法将可写内容转换为文本

对hadoop减速器输出进行迭代读取。

为什么Mapper的输出键/值需要与输出键/值ofCombiner的输出键/值相同

Hadoop: Reducer被调用两次

C#和Mono的Hadoop流: IdentityMapper被错误地使用

复杂类型的reducer的ReadFields()中的缓冲区为空

python中出现Hadoop流作业失败错误

为python运行hadoop流(Version2.6.5)时的类

如何向python Hadoop流式作业传递参数？

在hadoop上的一个流作业中使用多个映射器输入？

学习Mapreduce:计算的是reducer还是mapper

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐