腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
无题~
专栏作者
举报
218
文章
266397
阅读量
22
订阅数
订阅专栏
申请加入专栏
全部文章(218)
编程算法(48)
java(34)
mapreduce(19)
存储(18)
hadoop(16)
大数据(16)
数据库(15)
sql(15)
bash(12)
python(11)
node.js(10)
xml(10)
hive(10)
linux(9)
bash 指令(9)
yarn(8)
数据结构(8)
云数据库 SQL Server(7)
scala(6)
文件存储(6)
网络安全(6)
面向对象编程(6)
tcp/ip(6)
html(5)
网站(5)
分布式(5)
二叉树(5)
打包(4)
jar(4)
NAT 网关(4)
ssh(4)
zookeeper(4)
nat(4)
集合(4)
链表(4)
c 语言(3)
c++(3)
javascript(3)
ide(3)
shell(3)
spark(3)
jvm(3)
yum(3)
list(3)
内存(3)
php(2)
unix(2)
TDSQL MySQL 版(2)
缓存(2)
dns(2)
grep(2)
windows(2)
hbase(2)
cmd(2)
data(2)
遍历(2)
编译(2)
对象(2)
继承(2)
权限(2)
数据类型(2)
通信(2)
协议(2)
源码(2)
对象存储(1)
负载均衡(1)
官方文档(1)
servlet(1)
jsp(1)
css(1)
json(1)
android(1)
mvc(1)
centos(1)
负载均衡缓存(1)
nginx(1)
云数据迁移(1)
日志服务(1)
SSL 证书(1)
腾讯云测试服务(1)
压力测试(1)
jdk(1)
正则表达式(1)
jdbc(1)
hashmap(1)
anaconda(1)
安全(1)
数据分析(1)
https(1)
kafka(1)
虚拟化(1)
flink(1)
bit(1)
channel(1)
code(1)
commit(1)
console(1)
core(1)
count(1)
date(1)
decimal(1)
dfs(1)
diff(1)
event(1)
hostname(1)
insert(1)
ip(1)
jupyter(1)
key(1)
mac(1)
map(1)
network(1)
null(1)
partition(1)
pip(1)
point(1)
protected(1)
public(1)
rank(1)
reverse(1)
rollback(1)
root(1)
rsync(1)
scp(1)
set(1)
size(1)
static(1)
time(1)
treemap(1)
var(1)
vim(1)
void(1)
window(1)
zip(1)
闭包(1)
编辑器(1)
操作系统(1)
程序(1)
登录(1)
队列(1)
函数(1)
基础(1)
集群(1)
计算机(1)
镜像(1)
浏览器(1)
排序(1)
配置(1)
数据(1)
数据中心(1)
数组(1)
思维导图(1)
索引(1)
同步(1)
系统(1)
虚拟机(1)
异常(1)
主机(1)
字符串(1)
搜索文章
搜索
搜索
关闭
Hadoop之MapReduce开发总结
mapreduce
(1)默认使用的实现类是:TextInputFormat (2)TextInputFormat的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为value返回。 (3)KeyValueTextInputFormat每一行均为一条记录,被分隔符分割为key,value。默认分隔符是tab(\t)。 (4)NlinelnputFormat按照指定的行数N来划分切片。 (5)CombineTextlnputFormat可以把多个小文件合并成一个切片处理,提高处理效率。 (6)用户还可以自定义InputFormat。
孙晨c
2020-09-18
459
0
MapReduce案例之寻找共同好友
java
mapreduce
以下是博客的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的) 求出哪些人两两之间有共同好友,及他俩的共同好友都有谁?
孙晨c
2020-09-18
500
0
MapperReduce常见错误及解决方案
windows
shell
java
hadoop
mapreduce
1)导包容易出错。尤其Text和CombineTextInputFormat。 2)Mapper中第一个输入的参数必须是LongWritable或者NullWritable,不可以是IntWritable. 报的错误是类型转换异常。 3)java.lang.Exception: java.io.IOException: Illegal partition for 13926435656 (4),说明Partition和ReduceTask个数没对上,调整ReduceTask个数。 4)如果分区数不是1,但是reducetask为1,是否执行分区过程。答案是:不执行分区过程。因为在MapTask的源码中,执行分区的前提是先判断ReduceNum个数是否大于1。不大于1肯定不执行。 5)在Windows环境编译的jar包导入到Linux环境中运行, hadoop jar wc.jar com.atguigu.mapreduce.wordcount.WordCountDriver /user/atguigu/ /user/atguigu/output 报如下错误: Exception in thread "main" java.lang.UnsupportedClassVersionError: com/atguigu/mapreduce/wordcount/WordCountDriver : Unsupported major.minor version 52.0 原因是Windows环境用的jdk1.7,Linux环境用的jdk1.8。 解决方案:统一jdk版本。 6)缓存pd.txt小文件案例中,报找不到pd.txt文件 原因:大部分为路径书写错误。还有就是要检查pd.txt.txt的问题。还有个别电脑写相对路径找不到pd.txt,可以修改为绝对路径。 7)报类型转换异常。 通常都是在驱动函数中设置Map输出和最终输出时编写错误。 Map输出的key如果没有排序,也会报类型转换异常。 8)集群中运行wc.jar时出现了无法获得输入文件。 原因:WordCount案例的输入文件不能放用HDFS集群的根目录。 9)出现了如下相关异常
孙晨c
2020-09-18
576
0
MapReduce之ReduceJoin案例
java
mapreduce
通过将关联条件作为Map输出的key,将两表满足Join条件的数据并携带数据所来源的文件信息,发往同一个ReduceTask,在Reduce中进行数据的串联。
孙晨c
2020-08-19
534
0
MapReduce之多个Job串联的案例
网络安全
java
mapreduce
期待输出 比如:atguigu c.txt-->2 b.txt-->2 a.txt-->3
孙晨c
2020-08-18
406
0
MapReduce之MapJoin案例
java
缓存
mapreduce
思考:在Reduce 端处理过多的表,非常容易产生数据倾斜。怎么办? 在Map端缓存多张表,提前处理业务逻辑,这样增加Map 端业务,减少Reduce 端数据的压力,尽可能的减少数据倾斜。
孙晨c
2020-08-18
408
0
MapReduce之GroupingComparator分组(辅助排序、二次排序)
java
mapreduce
网络安全
利用“订单id和成交金额”作为key,所以把每一行记录封装为bean。由于需要比较ID,所以实现了WritableComparable接口 OrderBean.java
孙晨c
2020-08-11
608
0
MapReduce之自定义OutputFormat
java
mapreduce
网站
OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口。下面介绍几种常见的OutputFormat实现类。
孙晨c
2020-08-11
395
0
MapReduce之Combiner合并
mapreduce
Combiner是MR程序中Mapper和Reducer之外的一种组件(本质是一个Reducer类) Combinr组件的父类就是Reducer Conbimer只有在驱动类里设置了之后,
孙晨c
2020-07-31
492
0
MapReduce之WritableComparable排序
java
mapreduce
思考 因为Map Task和ReduceTask均会默认对数据按照key进行排序,所以需要把流量总和设置为Key,手机号等其他内容设置为value
孙晨c
2020-07-31
558
0
MapReduce之自定义分区器Partitioner
mapreduce
java
期望输出数据: 手机号136、137、138、139开头都分别放到一个独立的4个文件中,其他开头的放到一个文件中。所以总共分为5个文件,也就是五个区。
孙晨c
2020-07-22
694
0
MapReduce之Job提交流程
mapreduce
yarn
javascript
node.js
运行Job.waitForCompletion(),先使用JobSubmitter提交Job,在提交之前,会在Job的作业目录中生成以下文件: job.split:当前Job的切片信息,有几个切片对象 job.splitmetainfo:切片对象的属性信息 job.xml:job所有的属性配置
孙晨c
2020-07-21
563
0
MapReduce之片和块的关系
javascript
python
mapreduce
大数据
blockSize: 块大小 minSize: minSize从mapreduce.input.fileinputformat.split.minsize和1之间对比,取最大值 maxSize: 读取mapreduce.input.fileinputformat.split.maxsize,如果没有设置,则使用Long.MaxValue作为默认值
孙晨c
2020-07-21
443
0
MapReduce的常见输入格式之KeyValueTextInputFormat
java
mapreduce
每行第一个字段为名字,后面的则为该人的一些信息,所以此时的输入格式应该是以每一行的名字为Key,每一行的其他信息为Value。
孙晨c
2020-07-21
961
0
MapReduce的常见输入格式之NlineInputFormat
java
mapreduce
python
RecordReader:LineRecordReader,一次处理一行,将一行内容的偏移量作为key,一行内容作为value 它们的数据类型:
孙晨c
2020-07-21
604
0
使用MapReduce运行WordCount案例
文件存储
mapreduce
hadoop
java
jar
注意:准备的数据的格式必须是文本,每个单词之间使用制表符分割。编码必须是utf-8无bom
孙晨c
2020-07-16
470
0
MapReduce计算框架的核心编程思想
mapreduce
MRAppMaster(MR任务的主节点): 一个Job在运行时,会先启动一个进程,这个进程称为MRAppMaster,负责Job中执行状态的监控,容错,和RM申请资源,提交Task等。
孙晨c
2020-07-14
379
0
MapReduce的运行流程概述
spark
hadoop
hive
javascript
mapreduce
①InputFormat调用RecordReader,从输入目录的文件中,读取一组数据,封装为keyin-valuein对象
孙晨c
2020-07-14
683
0
初识Hadoop
hadoop
mapreduce
分布式
大数据
存储
高速性(velocity):大数据要求处理速度快,比如淘宝双十一需要实时显示交易数据
孙晨c
2019-09-29
518
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档