00:00
好,接下来呢,我们终于到了,我们盼望已久的啊,沃尔的案例支撑。首先是需求。需求什么呢?在给一定的文本文件中统计出。出每一个单词出现的。郭了钢的。那看一下这个什么文件里面这么多。这里面有。阿威,我啊,有双手啊。张老师啊。教班长学。对吧,啊,两位业界名师啊。深入是吧。手把手教是吧。那这个是输入数据,那最终我们期望输出的结果是什么呢?啊,统计出艾特硅谷两次,班长一次。
01:00
跟我们之前那个预期的效果图一样,类似的这种啊。做过好多哈这个文。收入是收入大。那下面我们来详细分析一下我们这个work如何来写,也就是说我们的micro reduce drive3类里面要写什么内容。才能实现我们刚才这个需求。这是输入数据啊。输出数据,我们的预期是这样的。那接下来三类。那么在member阶段。将ma传给我们的文本内容先转换成。转换成string,还记得这个刚才源码里面有四个参数,前两个参数是输入对吧,第一个是object啊,第二个是。Test test类型,我们操作起来是不是很方便?什么类型方便?实际我很擅长。
02:01
指针呢,对字符串的一个截取啊,啊这个处理啊,非常六,但我们会把它整成实例。也说回家这个第一行。看着是一模一样,其实呢,类型已经变了。给它变成实际类型。拿到它一次读取一行哈,这里面注意啊,一次处理的是一行内容。OK,那再往下根据空格将这一行切分成单词。五七支化的一个处理。切成什么呢?男。切,切完之后干什么呢?将单词输出为。爱的微博。记住哈,这地方一定是艾特硅谷一,艾特硅谷一,而不是艾特硅谷。他并没有对它进行合并的啊,只负责外汇阶段,只负责切啊。分的一个过程。
03:00
读完一行就拉倒啊,读完一行切成单词,就往下一个阶段去写。就行了。这种。并不是我们理想当中的是S52啊,这后面就省事了。他不会这么干。后面会有让的这么大的框架啊,但是现在需要了解。OK,再往下汇总各个K的个数,你前提这已经切完了。那在哪汇总呢?那首先这些单词,比如说爱硅谷为P的单词。D的含义都知道吧,是唯一啊。唯一它会进入到。同一个研究方法里面去。那同一个指定方法里面,它就会将这些单词进行一个。在reduce里面才对这个数据进行一个累加。谁加什么呀?这是处理一个到后面他会源源不断的啊。
04:00
他为什么这么处理呢?他会把前面麦所有的麦克都结束之后,是不是才开紧椎六?那你说相当于把这些单词数全切完了。哎,全切完之后按照P分。要一组一组的。啊,进入到一个一个的研究方法里面去。先这组完事之后呢,下一组班长啊。然后苍老师这个也是这一行数据过来之后执行一次方法。那黑豆也是一次啊。这个是交一次送手。然后一组。整个的一系列治愈过程。那才是最核心的map和reduce,那driver里面干什么事情呢?信息。比如说第一个呢,是获取配置信息。获取照对象。指定本程序的价包所在的本地路径。那你这个件放在什么位置啊。
05:01
这个程序如果能找到,因为运行程序肯定是找家猫啊。再来关联micro的。你刚才写了一个类,写了一个reduce类,如果跟这个job关联上。再往下指定麦输出的数据是。的。输出。是什么样类型的,这地方需要设置一下,同时他要设置别的最终输出的数据的,对吧。人形。这里面最终呢,你可以先认为是六。啊,再往后指定Java,输入原文件所在的。啊,原始文件能够就是还数据,还这个运行程序有个特点,必须有输入路径有。的输出。而且要求输出路径。必须不能存在对吧。
06:01
指定丈夫的输出结果是在目录。这个呢是提交作业啊,一提交也就说项把这个照提交到整个集群里面。这都是固定的格式,几乎所有的程序都这么写啊。给你们写个三五遍或者。这是这个程序的一个分析流程。
我来说两句