Java Map Reduce使用SequenceFIle作为reducer输出_Map Reduce错误输出/ Reducer不工作_使用我自己的类作为输出值时，Reducer不调用reduce方法MapReduce Hadoop - 腾讯云开发者社区

serialization、hadoop、sequencefile

我有一个输出格式为SequenceFileOuputFormat的作业。我将输出键和值类设置如下： conf.setOutputKeyClass(IntWritable.class); conf.setOutputValueClass(SplitInfo.class); SplitInfo类implements Serializable,Writable 我将io.serializations属性设置如下： conf.set("io.serializations","org.apache.hadoop.io.serializer.JavaSerialization,&

浏览 2提问于2012-09-16得票数 2

回答已采纳

1回答

错误的值类: org.apache.mahout.math.VarLongWritable不是org.apache.mahout.math.VectorWritable类

java、hadoop、mahout

当我使用mahout和Hadoop做一些推荐时，我遇到了一个问题。错误信息是： Error: java.io.IOException: wrong value class: org.apache.mahout.math.VarLongWritable is not class org.apache.mahout.math.VectorWritable at org.apache.hadoop.io.SequenceFile$Writer.append(SequenceFile.java:1378) at org.apache.hadoop.mapreduce.lib.outp

浏览 8提问于2016-05-11得票数 0

回答已采纳

1回答

Hive上的自定义Map Reduce程序，规则是什么？那么输入和输出呢？

hadoop、mapreduce、hive

我被困了几天，因为我想根据我在hive上的查询创建一个自定义的map reduce程序，在googling之后我发现没有太多的例子，我仍然对规则感到困惑。创建我的自定义mapreduce程序的规则是什么，mapper和reducer类如何？有人能提供任何解决方案吗？我想用Java开发这个程序，但还是卡住了，然后在收集器中格式化输出时，如何在mapper和reducer类中格式化结果？有没有人想给我举个例子，解释一下这类东西？

浏览 1提问于2011-05-31得票数 10

回答已采纳

2回答

将文本文件转换为SequentialFileOutput格式

java、hadoop

我正在尝试将文本文件转换为sequentialFileoutputFormat格式，但我有一条错误消息： java.io.IOException错误的键类/home/mmrao/test.txt不是org.apache.hadoop.io.LogWritable类 Mapper public class SequenceFi[enter image description here][1]leMapper extends Mapper<NullWritable, BytesWritable, Text, BytesWritable> { private Text

浏览 3提问于2016-06-21得票数 0

1回答

重新运行Hadoop作业，分区的mapoutput是否仍会转到相同的缩减程序？

java、hadoop、mapreduce

浏览 0提问于2011-11-16得票数 1

回答已采纳

4回答

hadoop streaming :如何给reducer提供键值列表？

python、hadoop、mapreduce、hadoop-streaming

因此，当我们使用Java编写map/reduce程序时，映射收集数据，reducer接收每个键的值列表，如下所示 Map(k, v) -> k1, v1 then shuffle and sort happens then reducer gets it reduce(k1, List<values>) 去努力工作。但是，是否可以使用streaming对python执行相同的操作？我使用作为参考，似乎reducer从命令行中提供的每一行获取数据

浏览 0提问于2011-10-06得票数 2

回答已采纳

1回答

Hadoop序列化嵌套对象

java、serialization、hadoop、writable

我有一堂课： class Class1 implements Writable{ int intField; double doubleField; Class2 refToClass2; public void readField(DataInput in){...} public void write(DataOutput out){...} class Class2 implements Serializable, Writable{ .... } 当使用Class1作为输出值时，Hadoop将此

浏览 3提问于2012-09-16得票数 0

回答已采纳

1回答

对hadoop减速器输出进行迭代读取。

java、hadoop、iteration

我只是在使用3台机器集群测试单词计数示例。除以下代码外，我的代码与相同：在"output.collect(key，new IntWritable(sum))“行之前，我在还原器代码中添加了两行代码： System.out.println(key); key.set(key + " - Key in Reducer"); 然后我检查我的减速机日志(最后8K，我找到了这个： 3M3WI - Key in Reducer - Key in Reducer 3M3WIG - Key in Reducer - Key in Reducer 3M3WL - Key in Redu

浏览 0提问于2013-09-16得票数 0

回答已采纳

1回答

如何在Hadoop主程序中访问reducers输出的值(或键)？

hadoop、mapreduce

假设每个Reducer输出一个整数作为其值(或关键点)。有没有办法在Hadoop的主程序中访问这些值(或键)(例如，对它们求和)？

浏览 2提问于2013-01-17得票数 0

回答已采纳

1回答

hadoop: Reducer输出到另一个Reducer

hadoop、mapreduce

如果我们想要按相同的键分组(第一个Reducer的输出)，是否可以将reducer的输出直接发送到另一个reducer 有时，在链接时，我观察到我使用映射器只是为了从输入读取并将其复制到输出。因此想知道idf，可以将输出直接馈送到reducer

浏览 0提问于2012-09-21得票数 7

回答已采纳

1回答

map reduce中没有合并阶段的reducer的输入是什么。

mapreduce

我正在阅读使用组合器进行mapreduce的教程 reducer从组合器接收以下输入 <What,1,1,1> <do,1,1> <you,1,1> <mean,1> <by,1> <Object,1> <know,1> <about,1> <Java,1,1,1> <is,1> <Virtual,1> <Machine,1> <How,1> <enabled,1> <High,1> <Performance,

浏览 16提问于2016-08-01得票数 1

1回答

如何在Hadoop程序中移动文件？

hadoop

我希望能够从相同的reducer输出中写入多个目录。我正在使用MultipleOutput来写入多个文件。现在，我想将这些文件移动到不同的目录。如何在Java的Hadoop MapReduce程序中做到这一点？

浏览 1提问于2014-04-08得票数 1

5回答

Hadoop，如何压缩映射器输出而不是reducer输出

compression、hadoop、hdfs

我有一个map-reduce java程序，在这个程序中，我尝试只压缩映射器输出，而不压缩缩减程序输出。我认为这可以通过在配置实例中设置以下属性来实现，如下所示。但是，当我运行我的作业时，reducer生成的输出仍然是压缩的，因为生成的文件是: part-r-00000.gz。有没有人成功地压缩了映射器数据而没有压缩reducer？这有可能吗？ //压缩mapper输出 conf.setBoolean("mapred.output.compress", true); conf.set("mapred.output.compression.type", Compr

浏览 2提问于2011-04-07得票数 25

回答已采纳

1回答

hadoop reducer的reduce()调用可以接受的最大记录数是多少？

hadoop、lazy-loading、mapreduce

我有一个映射器，它的输出通过使用我自己的分区程序映射到多个不同的reducer实例。我的分区程序确保给定的数据总是发送到给定的reducer实例。我想知道的是，如果由于某种原因，输入数据被歪曲了，我得到了一百万条记录(更准确地说，#条记录不能放入内存)，有没有任何可能的方法让reducer仍然工作得很好？我的意思是，传递给reducer的hadoop iterable是不是一个懒惰的加载器？

浏览 0提问于2011-03-15得票数 0

回答已采纳

1回答

如何编写一个MapReduce程序，其中Reducer的输出为单个Reducer

hadoop、mapreduce

如何编写一个MapReduce程序，其中我的映射器的输出到Reducers，而Reducers的输出到另一个Reducer，但在这种情况下，只有一个Reducer，所以所有输出的键值对都将到同一个Reducer。

浏览 0提问于2015-12-01得票数 1

5回答

LeaseExpiredException: HDFS上无租用错误

hadoop、hdfs

我正在尝试将大量数据加载到HDFS，但有时会收到以下错误。知道为什么吗？错误： org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No lease on /data/work/20110926-134514/_temporary/_attempt_201109110407_0167_r_000026_0/hbase/site=3815120/day=20110925/107-107-3815120-20110926-134514-r-0002

浏览 0提问于2011-09-27得票数 28

回答已采纳

1回答

将映射器输出发送到不同的reducer

java、hadoop

我是Hadoop的新手，现在我正在使用java mapper/reducer代码。在工作时，我遇到了一个问题，我必须将映射器类的输出传递给两个不同的reducer class.If。这是可能的，或者not.Also我们可以从同一个映射器class...Can发送两个不同的输出。

浏览 0提问于2014-07-02得票数 0

1回答

mapreduce程序

mapreduce

考虑一个.txt文件..因为我没有用换行符分隔的段落。现在我需要计算每一段中的字数。将统计的单词视为映射器中的关键字，并为所有单词初始赋值1 在Reducer中给我一个排序的输出请给我一个完整的代码以便更好地理解，因为我是一个新手请给我更好的说明，它如何计算每段的字数

浏览 0提问于2012-10-13得票数 1

回答已采纳

1回答

Hadoop MultipleOutputFormat支持与org.apache.hadoop.mapreduce.Job

hadoop

我是Hadoop的新手！现在，我尝试在Hadoop2.2.0中使用MultipleOutputFormat，但似乎它们只使用不推荐的“JobConf”，而后者又使用了弃推荐的Mapper和Reducer (org.apache.hadoop.mapred.Reducer)等等。如何使用新的“org.apache.hadoop.mapreduce.Job”实现多个输出功能？

浏览 0提问于2013-11-26得票数 2

回答已采纳

2回答

使用SequenceFile的Hadoop流媒体(在亚马逊网络服务上)

ruby、hadoop、amazon-web-services、amazon-emr

我有大量的Hadoop SequenceFiles，我想在AWS上使用Hadoop来处理它们。我现有的大部分代码都是用Ruby编写的，所以我想在Amazon EMR上使用Hadoop Streaming以及我的自定义Ruby Mapper和Reducer脚本。我找不到任何关于如何将Sequence Files与Hadoop流集成，以及如何将输入提供给我的Ruby脚本的文档。我希望得到一些关于如何使用SequenceFiles启动作业的说明(直接在EMR上，或者只是一个普通的Hadoop命令行)，以及关于如何将数据提供给我的脚本的一些信息。 --编辑:我之前错误地引用了StreamFiles而

浏览 2提问于2012-08-15得票数 4

回答已采纳

2回答

如何确定一个减速器的值是多少？

java、hadoop、mapreduce

运行地图后，我得到键、值 1，白天，黑夜，白天 2、天、天此值将传递给缩减程序。我的减速器 import org.apache.hadoop.mapred.Reducer; public class RTransactionPerPartOfDay implements Reducer<Text, Text, Text, IntWritable>{ public void reduce(Text key, Iterator<Text> values, OutputCollector<Text, IntWritable> outputCollec

浏览 0提问于2016-10-13得票数 0

1回答

Java Hadoop - reducer的输入可以是reducer的输出吗？

java、hadoop、mapreduce

我正在编写一个包含(目前)3个map-reduce阶段的map-reduce程序。我需要对第三阶段reduce的输出做另一次reduce -我可以使用身份映射(获取(key, value)并输出它们而不做任何更改)，但我不想做额外的映射(时间和资源方面)，而是希望简单地将它们传递给reducer。有可能吗？如果是这样，我该如何编码“作业”呢？我可以发布我的整个代码，如果它可能会有帮助的话(也许我在前3个阶段做了一些多余的/不充分的事情)。谢谢你的帮助。

浏览 12提问于2017-01-18得票数 1

回答已采纳

2回答

Hadoop: Reducer被调用两次

java、hadoop

我和Hadoop在EMR上合作。我写了一个简单的程序，只运行一个map-reduce进程。我得到的输出并不是我所期望的，并且通过调试打印，我发现reducer实际上被调用了两次:一次使用映射器的输出作为输入，第二次使用第一个reducer的输出作为输入。最后，reducer第二次运行的输出就是我得到的输出。我在AMI 3.1.1上使用Hadoop 2.4.0，reduce方法签名是： @Override public void reduce(Text key, Iterable<Text> values, Context context) throws IOExceptio

浏览 3提问于2014-08-22得票数 1

2回答

Hadoop减少单个记录数量

hadoop、mapreduce、counter

当map reduce有多个reducer时，如何获取每个reducer输出文件的单个输出记录计数？现在，我可以使用REDUCE_OUTPUT_RECORDS计数器获得减速器的总数。但是如何获得单个的减数呢？我查找每个减速机的输出记录的计数...比方说，在总排序顺序分区中，我想要每个reducer发出的记录的计数...例如，记录总数为7..2来自减速器1，5来自减速器2，这是一种统计。

浏览 0提问于2015-06-29得票数 0

3回答

Hadoop排序示例在“not SequenceFile”中失败。如何设置SequenceFile

hadoop

我正在尝试运行bin/hadoop示例-1.0.4.jar排序输入输出但是得到一个错误"java.io.IOException: hdfs://SequenceFile:9000/usr/ubuntu/input/file1 1而不是SequenceFile“ 如果我运行bin/hadoop示例-1.0.4.jar字计数输入输出，它就工作了。所以我不知道该怎么处理

浏览 0提问于2013-04-19得票数 0

回答已采纳

1回答

使用Apache Hadoop处理大量文本文件

apache、hadoop、text、mapreduce、data-analysis

我有非常多的文本文件，总大小为1 TB。比方说，我必须对每个文件执行字数统计，并希望单独存储每个文件的结果。Apache Hadoop是这类问题的正确解决方案吗？每个文件的大小为5 MB。我不能连接这些文件，因为我想单独查看每个文件的字数统计结果。我希望Hadoop所做的是将每个文件作为输入提供给映射器，并在reducer中为其生成单独的输出文件。

浏览 0提问于2017-09-01得票数 0

1回答

锈蚀嵌套关闭移动和多个所有者

rust

下面是我正在处理的问题的MWE，它没有编译： use std::collections::HashSet; use nom::{ IResult, error::VerboseError, bytes::complete::is_not, character::complete::space1, combinator::map, multi::separated_list1, }; type Set = HashSet<char>; fn _make_parser(reducer: impl Fn(Set, Set) -> S

浏览 3提问于2021-06-16得票数 0

2回答

两个相等的组合关键点不会到达相同的缩减器

java、hadoop、mapreduce、combiners

我正在用Java语言和MapReduce框架制作一个Hadoop应用程序。我只使用文本键和值作为输入和输出。我使用组合器在减少到最终输出之前执行额外的计算步骤。但我有一个问题，那就是钥匙不能连接到同一个减速器上。我在组合器中创建并添加键/值对，如下所示： public static class Step4Combiner extends Reducer<Text,Text,Text,Text> { private static Text key0 = new Text(); private static Text key1 = new Text();

浏览 0提问于2013-01-03得票数 2

回答已采纳

1回答

读取BinStorage存储的数据集(从外部工具)

hadoop、apache-pig

我有一个猪脚本，其中包含一些计算繁重的部分；我想删除这些部分，并使用一些优化的MapReduce作业来运行它们。我认为对于MapReduce作业来说，直接读写与Pig用于存储中间结果相同的数据格式将是完美的，以避免无用的转换。我在考虑使用org.apache.pig.builtin.BinStorage存储函数来存储数据。我的问题是，我不知道如何从MapReduce作业中读取该格式。我尝试使用以下代码： public class WordCount { public static class Map extends MapReduceBase implements Mappe

浏览 0提问于2014-10-30得票数 0

2回答

DBInputWritable抛出异常

hadoop

import java.io.*; import java.sql.PreparedStatement; import java.sql.ResultSet; import java.sql.SQLException; import org.apache.hadoop.io.Writable; import org.apache.hadoop.mapreduce.lib.db.DBWritable; public class DBInputWritable implements Writable, DBWritable { String symbol; St

浏览 0提问于2014-11-27得票数 0

1回答

hadoop 1.0.0中的简单映射和reduce作业(使用nltk代码)导致hadoop流失败

hadoop

我的可执行代码及其输出 [hduser@Janardhan hadoop]$ bin/hadoop jar contrib/streaming/hadoop-streaming-1.0.0.jar -file /home/hduser/mapper.py -mapper mapper.py -file /home/hduser/reducer.py -reducer reducer.py -input /user/hduser/input.txt -output /home/hduser/outpututttt Warning: $HADOOP_HOME is deprecated.

浏览 0提问于2012-05-03得票数 0

1回答

矩阵对角差

matrix、clojure

问题给定一个大小为N×N的平方矩阵，计算其对角和之间的绝对差。输入格式第一行包含一个整数，N。下一个N行表示矩阵的行，每一行都包含描述列的N空格分隔整数。输出格式将矩阵对角线的两个和之间的绝对差打印为一个整数。样本输入 3 11 2 4 4 5 6 10 8 -12 样本输出 15 码 (ns hackerrank.core [:require [clojure.string :as s]]) (defn get-diagonal-sums-reducer [n] (fn [sums [line-number line]] (let [pr

浏览 0提问于2016-04-05得票数 6

回答已采纳

1回答

混洗和排序阶段是映射还是减少阶段的一部分？

hadoop、mapreduce、hadoop2

我的理解是，在mapreduce编程模型中，map和reduce是两个阶段。完成映射阶段后，将生成中间(键、值)值，并将这些值传递给缩减程序。我怀疑在map()阶段之后，混洗和排序将会到来。所以，我觉得shuffle和sort是reducer阶段的一部分，是真的吗？如果是这种情况，combiner()是如何工作的？

浏览 0提问于2016-08-25得票数 1

2回答

关于Hadoop的map-reduce

hadoop、mapreduce、hive

我是Hive和Hadoop的新手。我在hive中实现了一个任务。为此，我用java编写了查询块，并使用java中的JDBC访问Hive。(类似SQL中的存储过程) Hive使用Hadoop的Mapreduce来执行每个查询。那么我是否需要在java中为它编写mapreduce作业(Hadoop)。(我有这个疑问，因为Hive正在使用Hadoop mapreduce，那么有必要实现Mapper和Reducer吗？)

浏览 1提问于2012-03-07得票数 0

回答已采纳

3回答

在Python中执行多个mapreduce作业

python、hadoop、mapreduce、hadoop-streaming

我目前正在编写在Python中的hadoop流上运行的代码。然而，我试图做一个映射和两个减少的工作。当我尝试使用以下命令运行代码时，只有一个还原器--第一个--正在工作。我正在使用以下命令： hadoop jar /usr/hdp/2.2.0.0-2041/hadoop-mapreduce/hadoop-streaming.jar -Dmapreduce.job.queuename=user -Dmapreduce.map.memory.mb=4096 -Dmapreduce.map.java.opts=-Xmx3276m -Dmapred.output.compress=false -f

浏览 2提问于2015-07-14得票数 0

回答已采纳

3回答

闭合MapReduce减速机

clojure

这个程序构成了Hadoop MapReduce作业的减速器。它从stdin读取数据，stdin是用制表符分隔的。 foo 1 foo 1 bar 1 和产出 foo 2 bar 1 有什么改进的建议吗？ (use '[clojure.string :only [split]]) (def reducer (atom {})) (defn update-map [map key] (merge-with + map {key 1})) (doseq [line (line-seq (java.io.BufferedReader. *in*))]

浏览 0提问于2012-02-21得票数 4

回答已采纳

1回答

oozie作业中的错误

mapreduce、oozie

我有一个WordCount MapReduce作业，当它从hadoop运行时，它运行良好，并给出了输出。但是，当我通过oozie运行作业时，它会抛出错误‘java.io.IOException:键入来自map的键不匹配: expected org.apache.hadoop.io.Text，received org.apache.hadoop.io.LongWritable’ 这是代码 package Drivers; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.

浏览 4提问于2016-04-09得票数 0

回答已采纳

1回答

在java map-reduce中，如何打印最大值的key？

java、hadoop、hashmap

我正在尝试修改现有的代码，我设法打印了键(分组)和值(出现次数)，但我只需要提取一个具有最大值(出现次数)的键。我不是java专家，所以请原谅我没有正确地解释这个问题。当前输出： 994290 5 994380 33 994410 1 994440 11 995010 2 995030 5 期望值： 994380 33 代码 import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop

浏览 1提问于2017-09-29得票数 0

2回答

无法从Sqoop创建的Spark中的序列文件中创建数据

scala、apache-spark、hadoop、sqoop、sequencefile

我希望读取orders数据并从中创建RDD，该数据作为sequence文件存储在cloudera vm中的hadoop中。以下是我的步骤： 1)将订单数据作为序列文件导入： sqoop import --connect jdbc:mysql://localhost/retail_db --username retail_dba --password cloudera --table orders -m 1 --target-dir /ordersDataSet --as-sequencefile 2)读取spark中的文件： Spark1.6 val sequenceData=sc.s

浏览 1提问于2018-11-10得票数 1

回答已采纳

3回答

在Hadoop中，混洗是何时开始的

hadoop、mapreduce、hdfs、cloudera-cdh

我有一个问题，那就是洗牌什么时候开始。假设我有2个映射器和1个减速器。每个映射器将生成输出map1和map2。此map1和map2存储在各自数据节点的临时磁盘中。现在reducer应该等待map1和map2的输出吗？换句话说，洗牌是什么时候开始的？只要map1完成，或者它也必须等待map2完成？我正在听reducer上的混洗流量，我找不到任何流量，但控制台输出显示已经完成了70% (大约)的缩减。 14/12/18 17:45:55 INFO mapred.JobClient: map 97% reduce 22% 14/12/18 17:45:58 INFO mapred.JobCl

浏览 0提问于2014-12-19得票数 0

2回答

将Javascript简化为整数数组的总和

javascript、arrays

我有一个类似于这个[[5, 3], [2,1], [4, 3]]的整数数组，我所期望的输出是[8, 3, 7]，但是我似乎在减缩函数中遗漏了什么，因为我从n=3得到了一个类似于[undefined, undefined, undefined]的n undefined values数组如何获得数组中每个数组的和并将其加载到数组中？ const reducer = (accumulator, currentValue) => accumulator + currentValue; const dayArray = [[3,5],[4,6],[8,2]]; const twoWeek

浏览 5提问于2021-01-22得票数 0

回答已采纳

1回答

从另一个Java文件动态编译和运行Hadoop作业

java、dynamic、hadoop、classnotfoundexception

我正在尝试编写一个MapReduce文件，该文件接收MapReduce作业的源代码，动态编译它，并在Hadoop集群上运行作业。为了达到这个目的，我编写了3种方法，名为编译()、makeJAR()和run_Hadoop_Job()。在编译和创建JAR文件时，一切都很好。但是，当作业提交到Hadoop时，作业一开始，就会遇到查找必需的Mapper/Reducer类的问题，并为*(java.lang.ClassNotFoundException: reza.rCloud.Mapper_Reducer_Classes$Mapper_Class.class)*和Reducer_Class Mapper

浏览 1提问于2012-12-28得票数 1

回答已采纳

1回答

设置减速器的数目不起作用

python、hadoop、streaming

我使用-io类型字节和设置mapred.reduce.tasks=2的Hadoop流，但最后只有一个输出文件。如果我设置了mapred.reduce.tasks=0，那么我得到了许多输出文件。我很困惑。因此，我的问题是：如何使mapred.reduce.tasks = num (num >1)配置在流中使用-io类型字节时有效？ PS:我的映射器的输出是(键: python字符串，value:numpy数组)。我的.sh文件： hadoop $HADOOP_HOME/contrib/streaming/hadoop-streaming-1.2.1.jar \ -D mapred.red

浏览 1提问于2015-01-06得票数 1

回答已采纳

3回答

内存中的Hadoop Reducer值？

hadoop、mapreduce

我正在编写一个MapReduce作业，它可能会在reducer中包含大量的值。我担心所有这些值都会一次加载到内存中。 Iterable<VALUEIN> values的底层实现是否在需要时将值加载到内存中？Hadoop:权威指南似乎暗示了这种情况，但并没有给出一个“明确”的答案。 reducer的输出将远远大于值输入，但我相信输出会根据需要写入磁盘。

浏览 0提问于2012-06-14得票数 9

回答已采纳

1回答

如何编写0和2元情况下的自定义约简函数

clojure

clojure中的以下示例以各种方式调用+的髓质和二进制案例： (println 101 (+)) ; fine (println 102 (+ (+) 4)) ; fine (println 103 (reduce + (+) (range 4))) ; fine (println 104 (reduce + (range 4))) ; fine 我尝试将+替换为mean-reducer，如中所述。我更改了mean-reducer函数，使其在没有参数的情况下被调用时显式地公开其标识元素{:sum 0 :count 0}。对于导致(reduce mean-reducer (range 4

浏览 1提问于2019-04-16得票数 0

回答已采纳

1回答

map键中的错误-Type不匹配:预期org.apache.hadoop.io.Text，接收到的org.apache.hadoop.io.LongWritable

java、hadoop、mapreduce

我试图用java.So编写mapreduce代码--这里是我的文件。 mapper类(Bmapper)： public class bmapper extends Mapper<LongWritable,Text,Text,NullWritable>{ private String txt=new String(); public void mapper(LongWritable key,Text value,Context context) throws IOException, InterruptedException{ St

浏览 0提问于2018-03-16得票数 3

回答已采纳

1回答

MongoDB地图约简查找字谜

javascript、mongodb、mapreduce

我和mongodb有问题。我必须编写一些js代码才能在集合列表中找到字谜。收集结构如下： {_id : value，Import: anagram } 下面的代码完成了它的工作-它找到了字谜，但我必须使用地图缩减方式。我曾多次尝试将此代码重写为map还原，但我没有成功。我知道这个概念，我试过这样做： db.lista.mapReduce( mapper, reducer, { out : "result" } ); 但没有结果。代码应该如何分割？怎么做？如何将输出保存到数据库中？任何帮助都将不胜感激。 var input = db

浏览 0提问于2015-01-06得票数 1

回答已采纳

3回答

Hadoop mysql限制缩减程序

mysql、hadoop、mapreduce

我正在使用hadoop更新mysql数据库中的一些记录...我看到的问题是，在某些情况下，同一个密钥集会启动多个reducers。我已经看到在不同的slaves上运行2个reducers来获取相同的密钥。这导致两个reducers更新db中的相同记录的问题。我正在考虑关闭自动提交模式来缓解这个问题……但是在reducer中作为" cleanup“操作的一部分进行提交，但是想知道如何处理延迟的reducer behind...would清理操作仍然被调用that...if so....is有一种方法来判断reducer是否正常完成，因为我想调用"rollback”在没有完全处理

浏览 1提问于2011-05-17得票数 0

回答已采纳

4回答

在reducer函数中选择最大键

hadoop、mapreduce

我对reducer的理解是，它处理来自排序和洗牌的中间o/p文件的一个键、值对。我不知道如何访问包含排序的和随机排列的键值对的中间文件。一旦我无法访问中间文件，我就无法在reducer模块中编写代码来选择最大的键。我不知道如何编程reducer，它一次接收一个K，V对，只将最大的键及其相应值打印到最终的输出文件中。假设这是来自映射器的中间文件，该映射器也经历了排序和混洗。 1 a 2个目标 4这是什么我希望reducer在最终的输出文件中只打印"4 this what“。因为reducer在它的内存中没有整个文件。在reducer中不可能写出这个逻辑。我想知道是否有任何API支持从

浏览 0提问于2015-07-11得票数 1

2回答

映射后的IOException

java、mapreduce、hadoop2

我有一个数据集，每个记录包含两个字段： URL (没有前缀)；生命时间(以秒为单位) 我希望计算每个域的avrage生存期(以天为单位)。也就是说，如果我有这样2份记录： hadoop.apache.org/docs/current 22118400 hadoop.apache.org/docs/current/api/org/ 27820800 我应该得到答复： hadoop.apache.org 289 对于这些计算，我编写了一个hadoop作业： package ru.bdata.siteslifes; import org.apache.hadoop.conf.Co

浏览 2提问于2015-03-02得票数 0

回答已采纳