限制reducer的输出_Java Hadoop - reducer的输入可以是reducer的输出吗？_Map Reduce错误输出/ Reducer不工作 - 腾讯云开发者社区

、、

我有一个生成数十行代码的mapper类。然后通过mapreduce内部框架对此输出进行排序和合并。在这个排序之后，我只想通过reducer获得前5个要输出的记录。我怎样才能做到这一点呢？但这是不起作用的，它在输出中给出了所有记录。我想这是因为reduce类是为每个要缩减的输入行调用的，所以每次count都被初始化为0。有没有办法维护全局变量？公共类Reduce2扩展了Reducer{ int count=0; @Ov

浏览 31提问于2018-04-01得票数 0

回答已采纳

3回答

hadoop作业输出文件

、、

输出文件是自动生成的。输出文件的预期数量只有一个；但是，有两个名为part-r-00000和part-r-00001的输出文件。另外，如何将输出文件设置为part-r-00000？

浏览 0提问于2016-02-27得票数 0

2回答

限制所有缩减程序共同生成的记录数量

、、

下面是使用案例：在运行map-reduce作业之后，我对输出urls有一个全局限制。如果全局限制为1000，reducer的数量为5，则每个reducer最多将发出(1000/5 = 200)个urls作为输出问题是，如果只有两个主机的urls (由于用户输入)，并且这两个主机中的每一个

浏览 0提问于2012-04-05得票数 1

回答已采纳

1回答

在reducer的cleanup()中调用context.write()有什么用

我在某处读到只有在temp_dir中的输出移动到指定的输出目录后才会调用cleanup？另外，如何通过一些例子在MR作业中使用treeMap？

浏览 0提问于2015-11-05得票数 0

1回答

Mongodb聚合映射约简

、、

我有一个有三百万张唱片的收藏品。我希望根据两个键(还需要使用匹配条件)对聚集执行聚合。我也使用了聚合框架。我了解到，如果处理文档大小(数组)超过16 MB，则聚合将失败。我尝试的时候也面临着同样的问题。我现在正在尝试使用地图缩减。我需要关于执行这一原则的指导。如何通过使用map缩减来克服16 MB的大小限制？另外，我知道我可以通过将集合分割成多个集合，并在相同的集合上进行聚合。如果有人能给我指明正确的方向，那就太好了？

浏览 1提问于2014-04-16得票数 0

回答已采纳

1回答

在Map reduce API中限制reducer的输出

、、、

在我的mapreduce程序中，我的reducer的输出产生了100万行输出，但我只需要最初的前3行输出。为此，我在我的Reducer类中维护了一个实例变量，该变量计算它看到了多少条记录，并在3之后停止发出它们。但Reducer仍然必须遍历所有100万条记录。有没有办法可以在读取前3条记录后立即停止执行，以提高代码的性能。在这里，我还必须将缩减数设为1，这样我的

浏览 0提问于2016-10-08得票数 0

1回答

火花洗牌内存错误:分配直接内存失败

、、、

在星火数据帧(4x)上执行几个联接时，我得到以下错误：即使在设置：这个问题还没有解决。

浏览 1提问于2020-03-23得票数 1

回答已采纳

1回答

当reducer仍在运行时，我可以读取reducer输出吗？

、、

我正在尝试减少mapreduce作业在我的数据流中的延迟，并且我希望使用hdfs-api连续跟踪reducer part-xxxx文件的输出，而不是在作业完成后读取它。但我想知道这对hadoop作业是安全的吗？

浏览 0提问于2013-01-05得票数 1

回答已采纳

1回答

纱线记忆杀灭极限的问题

、

我有这样的线在纱/mapreduce吐露：<value>2048</value> <value>1024</value> <value>2

浏览 1提问于2016-08-18得票数 0

1回答

setMapoutputkeyclass和setMapoutputvalueclass方法

、、

如果reducer的输出与mapper的输出不同，该怎么办？所有的文档都说它会抛出错误。但我的问题是为什么？Reducer的输出是端点，所以如果它与映射器的输出不同，那么它需要使用setMapoutputkeyclass和setMapoutputvalueclass方法来设置，这很重要……为什么需要它？如果它不匹配，并且不是由除from error之外的方法设置的

浏览 0提问于2018-01-22得票数 0

1回答

Hadoop中的I/O设置

、

job.setMapOutputKeyClass()job.setOuputKeyClass()以避免Java泛型中的类型擦除问题

浏览 1提问于2013-11-22得票数 1

2回答

Hadoop和NLTK:使用秒词失败

、、、

该程序还使用了Hadoop，正如所描述的。#!nltk.corpus import stopwords print line, reducer.py-reducer /hadoop/reducer.py -input /hadoop/input.txt -output /hadoop/ou

浏览 6提问于2013-09-27得票数 1

回答已采纳

2回答

如何在Mahout中使用startPhase

、

我正在从Mahout0.7运行一些基于(org.apache.mahout.cf.taste.hadoop.item.RecommenderJob)的RecommenderJob作业，并注意到有像startPhase和endPhase这样的选项。我猜测，假设您有来自先前运行的必要输入数据，这些将只运行管道的一部分。但我很难理解RecommenderJob中有哪些阶段。我正在阅读源代码，但看起来需要一段时间。

浏览 0提问于2013-01-02得票数 1

回答已采纳

1回答

Map reduce框架中map阶段的实现

、

我搜索了很多，我知道在每个映射任务中，当缓冲区的内容到达阈值时，一个线程根据reduces.what的数量对数据进行分区，这里是reduce numbers的作用吗？为什么会在map中发生分区?它是如何发生的？我不能理解在这里倾诉的意义……谢谢。

浏览 0提问于2013-02-01得票数 0

2回答

似乎在我的reducer类中没有运行减速器方法。

、

avil 2310 paracetamol 2402公共类VisReducer扩展Reducer < Text、IntWritable、但我错误地将减速机类声明更改为公共类VisReducer扩展了Reducer<文本、Iterable< IntWritable >、Text、IntWritable >。输出似乎只是一个Mapper输出，由于某种原因，Reduceer类中的Reduceer方

浏览 0提问于2016-04-12得票数 0

2回答

一个mapreduce程序的输出作为另一个mapreduce程序的输入

、、、、

我正在尝试一个简单的示例，其中一个MapReduce作业的输出应该是另一个MapReduce作业的输入。流程应该是这样的：Mapper1 --> Reducer1 --> Mapper2 --> Reducer2 ( Mapper1的输出必须是Reducer1的输入。Reducer1的输出必须是Mapper2的

浏览 2提问于2015-06-16得票数 2

1回答

hadoop reducer是否有输入超时？

、、

我尝试在一个8节点的Windows HDP集群上运行一个hadoop作业。该作业有超过137000个输入，它在大约3.5小时内处理了84%到92%的map任务。然后，reducer在0%重新启动，map任务重新运行。这项工作永远不会结束。我的问题是，在从dfs读取map输出或块的reducer上是否存在导致reducer重新启动的超时？或者，如果reducer达到某种限制，它是否会生成一条错误消息

浏览 1提问于2012-12-29得票数 0

2回答

在MapReduce中，减少任务与减速器有何不同？

、

在Mapreduce中，Reducer任务与Reducer有什么不同？Reducer执行减缩任务吗？非常感谢

浏览 3提问于2015-11-03得票数 1

回答已采纳

1回答

Hive Tez reducers运行速度非常慢

、、、、

最重要的是，我正在做聚合。下面是我的配置单元设置，如下所示，我将使用这些设置来生成最终输出。我真的不确定如何调优查询并使其运行得更快。有没有人能分享你对此的看法？谢谢。hive.stats.fetch.partition.stats=true; set hive.tez.auto.reducer.parallelism= true; set hive.exec.reducer

浏览 154提问于2019-02-02得票数 3

回答已采纳

1回答