在map reduce中，统计单词的程序需要读取单词所在的文件

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、、

我正在读取多个输入文件，以解决字数统计问题。示例文件名: file1.txt file2.txt file3.txt 我可以获得单词计数，但是如果我还想获得单词所在的文件名和计数，那么应该添加什么。举个例子，文件1的内容:欢迎使用Hadoop 文件2的内容:这是hadoop 当前输出： Hadoop 2 是1 这个1 到1 欢迎1 预期输出： Hadoop 2

浏览 15提问于2019-07-01得票数 0

回答已采纳

1回答

使用arraylist处理海量数据

、

我有一个用java写的作业问题。最好的情况是所有的单词都是一样的。所以我将显示没有出现单词，但考虑到最坏的情况，比如文件中出现的单词是唯一的。所以我

浏览 0提问于2013-03-04得票数 0

1回答

使用Apache Hadoop处理大量文本文件

、、、、

我有非常多的文本文件，总大小为1 TB。比方说，我必须对每个文件执行字数统计，并希望单独存储每个文件的结果。Apache Hadoop是这类问题的正确解决方案吗？每个文件的大小为5 MB。我不能连接这些文件，因为我想单独查看每个文件的字数统计结果。我希望Hadoop所做的是将每个文件作为输入提供给映射器，并在reducer<em

浏览 0提问于2017-08-31得票数 0

2回答

Map Reduce的(Key，Value)输出上的Wordcount

、、、

我有几个(title , text )有序对，它们是使用Java从Hadoop中的MapReduce应用程序获得的输出。现在我想在这些有序对的文本字段上实现字数统计。总而言之，我希望对第一个mapreduce的输出记录单独实现wordcount。有人能建议我一个好的方法吗?或者我如何链接第二个map reduce作业来创建上面的输出或更好地格式化它？代码会计算所有文件的字数，并给

浏览 0提问于2013-08-01得票数 0

1回答

使用IntWritable的Hadoop Reduce输出总是在2处停止

、、

Reduce程序总是将值输出为2，即使给定键的值列表大于2。例如:字数统计测试文件中的单词与单词计数测试文件中的单词类似，单词统计测试文件中的单词与单词计数中的单词类似输出结果是: t

浏览 0提问于2014-02-27得票数 0

1回答

CouchDB中的map-reduce函数

、

我有一个java程序，可以读取PDF文件中的所有单词。我将单词和页面枚举器一起保存在数据库(couchDB)中。现在我想写一个map和一个reduce函数，它列出每个单词以及单词出现的页面枚举数，但是如果单词在一个页面上出现多次，我只想要一个条目。在couchDB中，每个带有页码的</

浏览 2提问于2013-06-03得票数 2

2回答

文本中的常用词

、

runJob(Arrays.copyOfRange(args, 0, args.length-1), args[args.length-1]); } context.write(key,result); }我需要做

浏览 1提问于2014-01-24得票数 0

1回答

使用hive从hadoop中使用map reduce程序生成的数据中获取数据

、

我是hadoop的初学者。我已经成功地安装了hadoop，遵循了提供的和map reduce程序的字数统计示例。所有的步骤都完成得很好，我可以看到结果。现在，我想对mapreduce程序生成的数据使用某种sql操作，比如获取超过25个单词的所有单词。我如何在此.I上继续操作需要一些指导

浏览 0提问于2014-06-04得票数 0

2回答

映射任务输入数据

、

我是第一次使用map/reduce。有没有可能一个map任务的输入在不同的服务器上？假设我想要使用map/reduce模拟“字数统计”，并逐行拆分数据(每行一段)。每个map任务真的会引用一段数据并统计该段中每个单词的出现次数吗？

浏览 1提问于2012-05-21得票数 0

回答已采纳

2回答

Hadoop:计算频率，然后在第二个map/reduce中设置变量

、、

在一个Hadoop程序中，我有三个Map/Reduce作业。第一个应该计算我的数据集中的单词总数。第二个和第三个Map/Reduce根据第一个Map/Reduce中的数字执行其他操作。有没有办法将第一个Map/Reduce的输出设置为全局变量，以便在<e

浏览 0提问于2015-05-27得票数 0

1回答

MapReduce Apache技术

、、

我正在尝试使用MapReduce Hadoop技术来统计程序。我需要做的是开发一个索引字计数应用程序，该应用程序将计数给定输入文件集中每个文件中每个单词的出现数。此文件集存在于Amazon桶中。它还将计算每个单词的总出现量。我已经附加了计算给定文件集中单词数量的代码。在此之后

浏览 0提问于2015-10-02得票数 0

回答已采纳

1回答

包含类的Hashmap单键。计算密钥并检索计数器

、、、

我从：获得了一个输入文件将每个

浏览 1提问于2015-05-28得票数 3

回答已采纳

1回答

C++程序，用于计数.txt文件中重复的单词

我正在尝试构建一个程序，该程序对.txt文件中的重复单词进行计数，并输出重复的单词以及重复的次数。我有一种计算有多少单词的方法，而不是重复的。

浏览 1提问于2017-03-13得票数 1

回答已采纳

0回答

我有一个包含单词的源文件，想要做典型的单词统计，我使用的是转换为数组并存入内存的东西 def freqMap(lines: Iterator[String]): Map[String, Int] = {val mappedWords: Array[(String, Int)] = lines.toArray.flatMap((l: String) => l.split(delimiter).map((word:

浏览 1提问于2017-06-14得票数 0

回答已采纳

1回答

hdfs map-reduce如何在完全分布式模式下实际工作

、、、

实际上，我对hdfs map-reduce如何在完全分布式模式下工作感到有点困惑。这个程序是否分布在每个节点上，或者什么？

浏览 0提问于2013-02-08得票数 0

回答已采纳

1回答

如何在Hadoop中使用MapReduce？

、

我们为什么要使用MapReduce？还有一些用例是什么？

浏览 0提问于2010-05-19得票数 0

回答已采纳

3回答

Python词频统计程序

、

我用python创建了一个简单的单词统计程序，它读取一个文本文件，统计词频，并将结果写入另一个文件。问题是，当单词重复时，程序会写入同一单词的初始计数和最终计数。例如，如果单词" hello“重复3次，程序将在输出中写入3个hello实例，如下所示：你好-1你好-3

浏览 0提问于2014-02-19得票数 1

2回答

如何使用mapreduce程序获取输入文件中的最后单词计数

、

谁能说出在一个简单的单词计数程序中需要做什么修改才能从一个文件中得到最后一个单词计数，使用map reduce。如果输入文件是感谢你的帮助

浏览 3提问于2015-09-15得票数 1

1回答

Spark vs Hadoop用这个简单的例子？

、、

在谷歌上，Spark和Hadoop MapReduce之间的关键区别都体现在处理方法上: Spark可以在内存中完成，而Hadoop MapReduce必须从磁盘读取和写入。考虑下面的字数统计示例： val counts = text.flatMap(line => line.split(" ")).map(word => (word,1)).red

浏览 27提问于2019-05-12得票数 0

回答已采纳

1回答