首页
学习
活动
专区
工具
TVP
发布

无题~

专栏作者
218
文章
266397
阅读量
22
订阅数
Hadoop之MapReduce开发总结
(1)默认使用的实现类是:TextInputFormat (2)TextInputFormat的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为value返回。 (3)KeyValueTextInputFormat每一行均为一条记录,被分隔符分割为key,value。默认分隔符是tab(\t)。 (4)NlinelnputFormat按照指定的行数N来划分切片。 (5)CombineTextlnputFormat可以把多个小文件合并成一个切片处理,提高处理效率。 (6)用户还可以自定义InputFormat。
孙晨c
2020-09-18
4590
MapReduce案例之寻找共同好友
以下是博客的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的) 求出哪些人两两之间有共同好友,及他俩的共同好友都有谁?
孙晨c
2020-09-18
5000
MapperReduce常见错误及解决方案
1)导包容易出错。尤其Text和CombineTextInputFormat。 2)Mapper中第一个输入的参数必须是LongWritable或者NullWritable,不可以是IntWritable. 报的错误是类型转换异常。 3)java.lang.Exception: java.io.IOException: Illegal partition for 13926435656 (4),说明Partition和ReduceTask个数没对上,调整ReduceTask个数。 4)如果分区数不是1,但是reducetask为1,是否执行分区过程。答案是:不执行分区过程。因为在MapTask的源码中,执行分区的前提是先判断ReduceNum个数是否大于1。不大于1肯定不执行。 5)在Windows环境编译的jar包导入到Linux环境中运行, hadoop jar wc.jar com.atguigu.mapreduce.wordcount.WordCountDriver /user/atguigu/ /user/atguigu/output 报如下错误: Exception in thread "main" java.lang.UnsupportedClassVersionError: com/atguigu/mapreduce/wordcount/WordCountDriver : Unsupported major.minor version 52.0 原因是Windows环境用的jdk1.7,Linux环境用的jdk1.8。 解决方案:统一jdk版本。 6)缓存pd.txt小文件案例中,报找不到pd.txt文件 原因:大部分为路径书写错误。还有就是要检查pd.txt.txt的问题。还有个别电脑写相对路径找不到pd.txt,可以修改为绝对路径。 7)报类型转换异常。 通常都是在驱动函数中设置Map输出和最终输出时编写错误。 Map输出的key如果没有排序,也会报类型转换异常。 8)集群中运行wc.jar时出现了无法获得输入文件。 原因:WordCount案例的输入文件不能放用HDFS集群的根目录。 9)出现了如下相关异常
孙晨c
2020-09-18
5760
MapReduce之ReduceJoin案例
通过将关联条件作为Map输出的key,将两表满足Join条件的数据并携带数据所来源的文件信息,发往同一个ReduceTask,在Reduce中进行数据的串联。
孙晨c
2020-08-19
5340
MapReduce之多个Job串联的案例
期待输出 比如:atguigu c.txt-->2 b.txt-->2 a.txt-->3
孙晨c
2020-08-18
4060
MapReduce之MapJoin案例
思考:在Reduce 端处理过多的表,非常容易产生数据倾斜。怎么办? 在Map端缓存多张表,提前处理业务逻辑,这样增加Map 端业务,减少Reduce 端数据的压力,尽可能的减少数据倾斜。
孙晨c
2020-08-18
4080
MapReduce之GroupingComparator分组(辅助排序、二次排序)
利用“订单id和成交金额”作为key,所以把每一行记录封装为bean。由于需要比较ID,所以实现了WritableComparable接口 OrderBean.java
孙晨c
2020-08-11
6080
MapReduce之自定义OutputFormat
OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口。下面介绍几种常见的OutputFormat实现类。
孙晨c
2020-08-11
3950
MapReduce之Combiner合并
Combiner是MR程序中Mapper和Reducer之外的一种组件(本质是一个Reducer类) Combinr组件的父类就是Reducer Conbimer只有在驱动类里设置了之后,
孙晨c
2020-07-31
4920
MapReduce之WritableComparable排序
思考 因为Map Task和ReduceTask均会默认对数据按照key进行排序,所以需要把流量总和设置为Key,手机号等其他内容设置为value
孙晨c
2020-07-31
5580
MapReduce之自定义分区器Partitioner
期望输出数据: 手机号136、137、138、139开头都分别放到一个独立的4个文件中,其他开头的放到一个文件中。所以总共分为5个文件,也就是五个区。
孙晨c
2020-07-22
6940
MapReduce之Job提交流程
运行Job.waitForCompletion(),先使用JobSubmitter提交Job,在提交之前,会在Job的作业目录中生成以下文件: job.split:当前Job的切片信息,有几个切片对象 job.splitmetainfo:切片对象的属性信息 job.xml:job所有的属性配置
孙晨c
2020-07-21
5630
MapReduce之片和块的关系
blockSize: 块大小 minSize: minSize从mapreduce.input.fileinputformat.split.minsize和1之间对比,取最大值 maxSize: 读取mapreduce.input.fileinputformat.split.maxsize,如果没有设置,则使用Long.MaxValue作为默认值
孙晨c
2020-07-21
4430
MapReduce的常见输入格式之KeyValueTextInputFormat
每行第一个字段为名字,后面的则为该人的一些信息,所以此时的输入格式应该是以每一行的名字为Key,每一行的其他信息为Value。
孙晨c
2020-07-21
9610
MapReduce的常见输入格式之NlineInputFormat
RecordReader:LineRecordReader,一次处理一行,将一行内容的偏移量作为key,一行内容作为value 它们的数据类型:
孙晨c
2020-07-21
6040
使用MapReduce运行WordCount案例
注意:准备的数据的格式必须是文本,每个单词之间使用制表符分割。编码必须是utf-8无bom
孙晨c
2020-07-16
4700
MapReduce计算框架的核心编程思想
MRAppMaster(MR任务的主节点): 一个Job在运行时,会先启动一个进程,这个进程称为MRAppMaster,负责Job中执行状态的监控,容错,和RM申请资源,提交Task等。
孙晨c
2020-07-14
3790
MapReduce的运行流程概述
①InputFormat调用RecordReader,从输入目录的文件中,读取一组数据,封装为keyin-valuein对象
孙晨c
2020-07-14
6830
初识Hadoop
高速性(velocity):大数据要求处理速度快,比如淘宝双十一需要实时显示交易数据
孙晨c
2019-09-29
5180
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档