每周学点大数据 | No.65 “Hello World”程序—— WordCount(上)

灯塔大数据

发布于 2018-04-03 16:17:07

5830

发布于 2018-04-03 16:17:07

文章被收录于专栏：灯塔大数据

编者按：灯塔大数据将每周持续推出《从零开始学大数据算法》的连载，本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作，以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用，带我们在大数据技术的海洋里徜徉～每周五定期更新

上期回顾＆查看方式

在上一期，我们学习了配置Hadoop的相关内容。PS：了解了上期详细内容，请在自定义菜单栏中点击“灯塔数据”—“技术连载”进行查看；或者滑到文末【往期推荐】查看。

NO.65

“Hello World”程序—WordCount

Mr. 王：你知道“Hello World”吗？

小可：嗯，我在学习 C 语言时，学会的第一个程序就是向屏幕输出一行“Hello World!”。后来程序员们就喜欢用 Hello World 来代指学习每一种语言的第一个程序。

Mr. 王：今天我们就来学习 Hadoop 的“Hello World”。

小可：它不会也是向屏幕输出一行 Hello World 吧？

Mr. 王笑着说：当然不是了，这样简单的任务如何能够体现一个并行计算系统的效果呢？前面我们讲过关于 WordCount 的内容。WordCount 是 Hadoop 最基本的一种应用，有很多人说WordCount 就是 Hadoop 的“Hello World”。

小可：嗯，WordCount 就是统计文章中单词出现的个数。那么应该怎么去实现它呢？

Mr. 王：我们先来看看代码是如何实现的。我们知道 Hadoop 的原生开发语言是 Java，所以这个程序也使用 Java 来编写。程序清单如下：

我们来分析一下这个程序。

程序的第一部分是包的引用，这里包括一些我们会用到的常见的 Java 包，也包括一些Hadoop 中的包。

第二部分，在类中定义内嵌类 Map，也就是 MapReduce 中的 Map 部分，首先，Map 是MapReduceBase 基类的派生类，这个类定义在 Hadoop 的包中；其次，它也是对接口 Mapper的实现，其中要对 Mapper 接口的模板类型进行指定。

小可：我以前从来没见过 LongWritable、Text、IntWritable 这几种类型，它们有什么用呢？

Mr. 王：这几种类型是 Hadoop 中定义的，它们用于封装 Java 中的 long、int、string 等类型。Hadoop 对这些类型进行了重新设计和定义，使之更适合于分布式、并行的环境。读代码时，只要把它们看作 long string 和 int，写代码时，记得用它们替换 Java 中的基本类型就可以了。

Mr. 王：这是对 Map 类中 map 方法的定义，由它来完成 Map 的主要工作。在参数列表中，key 和 value 两个变量对应着 MapReduce 中的 key-value 对；而OutputCollector<Text,IntWritable> 对 Mapper 的输出类型进行了定义，在 WordCount 的设计中，Mapper 要输出的就是word,1 这样的键值对，所以我们定义的 OutputCollector 就应当匹配 word 的类型 Text 和 1 的类型 IntWritable。

小可：嗯，下面这部分就比较好理解了，使用一个 StringTokenizer 类将原文中连起来的长字符串内容切分成一个个单词，然后将单词逐个地和 1 组合并发送出去。这是符合我们对Mapper1 的定义的。