腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

无题~

专栏作者

218

文章

266397

阅读量

22

订阅数

Hadoop之MapReduce开发总结

（1）默认使用的实现类是：TextInputFormat （2）TextInputFormat的功能逻辑是：一次读一行文本，然后将该行的起始偏移量作为key，行内容作为value返回。（3）KeyValueTextInputFormat每一行均为一条记录，被分隔符分割为key，value。默认分隔符是tab(\t)。（4）NlinelnputFormat按照指定的行数N来划分切片。（5）CombineTextlnputFormat可以把多个小文件合并成一个切片处理，提高处理效率。（6）用户还可以自定义InputFormat。

2020-09-18

4590

MapReduce案例之寻找共同好友

以下是博客的好友列表数据，冒号前是一个用户，冒号后是该用户的所有好友（数据中的好友关系是单向的）求出哪些人两两之间有共同好友，及他俩的共同好友都有谁？

2020-09-18

5000

MapperReduce常见错误及解决方案

windows shell java hadoop mapreduce

1）导包容易出错。尤其Text和CombineTextInputFormat。 2）Mapper中第一个输入的参数必须是LongWritable或者NullWritable，不可以是IntWritable. 报的错误是类型转换异常。 3）java.lang.Exception: java.io.IOException: Illegal partition for 13926435656 (4)，说明Partition和ReduceTask个数没对上，调整ReduceTask个数。 4）如果分区数不是1，但是reducetask为1，是否执行分区过程。答案是：不执行分区过程。因为在MapTask的源码中，执行分区的前提是先判断ReduceNum个数是否大于1。不大于1肯定不执行。 5）在Windows环境编译的jar包导入到Linux环境中运行， hadoop jar wc.jar com.atguigu.mapreduce.wordcount.WordCountDriver /user/atguigu/ /user/atguigu/output 报如下错误： Exception in thread "main" java.lang.UnsupportedClassVersionError: com/atguigu/mapreduce/wordcount/WordCountDriver : Unsupported major.minor version 52.0 原因是Windows环境用的jdk1.7，Linux环境用的jdk1.8。解决方案：统一jdk版本。 6）缓存pd.txt小文件案例中，报找不到pd.txt文件原因：大部分为路径书写错误。还有就是要检查pd.txt.txt的问题。还有个别电脑写相对路径找不到pd.txt，可以修改为绝对路径。 7）报类型转换异常。通常都是在驱动函数中设置Map输出和最终输出时编写错误。 Map输出的key如果没有排序，也会报类型转换异常。 8）集群中运行wc.jar时出现了无法获得输入文件。原因：WordCount案例的输入文件不能放用HDFS集群的根目录。 9）出现了如下相关异常

2020-09-18

5760

MapReduce之ReduceJoin案例

通过将关联条件作为Map输出的key，将两表满足Join条件的数据并携带数据所来源的文件信息，发往同一个ReduceTask，在Reduce中进行数据的串联。

2020-08-19

5340

MapReduce之多个Job串联的案例

网络安全 java mapreduce

期待输出比如：atguigu c.txt-->2 b.txt-->2 a.txt-->3

2020-08-18

4060

MapReduce之MapJoin案例

java 缓存 mapreduce

思考：在Reduce 端处理过多的表，非常容易产生数据倾斜。怎么办？在Map端缓存多张表，提前处理业务逻辑，这样增加Map 端业务，减少Reduce 端数据的压力，尽可能的减少数据倾斜。

2020-08-18

4080

MapReduce之GroupingComparator分组（辅助排序、二次排序）

java mapreduce 网络安全

利用“订单id和成交金额”作为key，所以把每一行记录封装为bean。由于需要比较ID，所以实现了WritableComparable接口 OrderBean.java

2020-08-11

6080

MapReduce之自定义OutputFormat

java mapreduce 网站

OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口。下面介绍几种常见的OutputFormat实现类。

2020-08-11

3950

MapReduce之Combiner合并

Combiner是MR程序中Mapper和Reducer之外的一种组件(本质是一个Reducer类) Combinr组件的父类就是Reducer Conbimer只有在驱动类里设置了之后，

2020-07-31

4920

MapReduce之WritableComparable排序

思考因为Map Task和ReduceTask均会默认对数据按照key进行排序，所以需要把流量总和设置为Key，手机号等其他内容设置为value

2020-07-31

5580

MapReduce之自定义分区器Partitioner

期望输出数据：手机号136、137、138、139开头都分别放到一个独立的4个文件中，其他开头的放到一个文件中。所以总共分为5个文件，也就是五个区。

2020-07-22

6940

MapReduce之Job提交流程

mapreduce yarn javascript node.js

运行Job.waitForCompletion()，先使用JobSubmitter提交Job，在提交之前，会在Job的作业目录中生成以下文件： job.split：当前Job的切片信息，有几个切片对象 job.splitmetainfo：切片对象的属性信息 job.xml：job所有的属性配置

2020-07-21

5630

MapReduce之片和块的关系

javascript python mapreduce 大数据

blockSize：块大小 minSize: minSize从mapreduce.input.fileinputformat.split.minsize和1之间对比，取最大值 maxSize: 读取mapreduce.input.fileinputformat.split.maxsize，如果没有设置，则使用Long.MaxValue作为默认值

2020-07-21

4430

MapReduce的常见输入格式之KeyValueTextInputFormat

每行第一个字段为名字，后面的则为该人的一些信息，所以此时的输入格式应该是以每一行的名字为Key，每一行的其他信息为Value。

2020-07-21

9610

MapReduce的常见输入格式之NlineInputFormat

java mapreduce python

RecordReader：LineRecordReader，一次处理一行，将一行内容的偏移量作为key，一行内容作为value 它们的数据类型：

2020-07-21

6040

使用MapReduce运行WordCount案例

文件存储 mapreduce hadoop java jar

注意：准备的数据的格式必须是文本，每个单词之间使用制表符分割。编码必须是utf-8无bom

2020-07-16

4700

MapReduce计算框架的核心编程思想

MRAppMaster（MR任务的主节点）: 一个Job在运行时，会先启动一个进程，这个进程称为MRAppMaster，负责Job中执行状态的监控，容错，和RM申请资源，提交Task等。

2020-07-14

3790

MapReduce的运行流程概述

spark hadoop hive javascript mapreduce

①InputFormat调用RecordReader，从输入目录的文件中，读取一组数据，封装为keyin-valuein对象

2020-07-14

6830

hadoop mapreduce 分布式大数据存储

高速性（velocity）：大数据要求处理速度快，比如淘宝双十一需要实时显示交易数据

2019-09-29

5180

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态