首页
学习
活动
专区
工具
TVP
发布

IT杂记

本专栏记录了本人在IT方面的各个领域的学习笔记或是遇到问题的解决思路和方法,等等..
专栏作者
55
文章
106257
阅读量
33
订阅数
Mapreduce 任务提交源码分析1
提交过程 一般我们mapreduce任务是通过如下命令进行提交的 $HADOOP_HOME/bin/hadoop jar $MR_JAR $MAIN_CLASS hadoop脚本中有如下代码 elif [ "$COMMAND" = "jar" ] ; then CLASS=org.apache.hadoop.util.RunJar //... 略 exec "$JAVA" $JAVA_HEAP_MAX $HADOOP_OPTS $CLASS "$@" 可以看到hadoop命令提
囚兔
2018-02-08
9990
通过Java程序提交通用Mapreduce任务并获取Job信息
背景 我们的一个业务须要有对MR任务的提交和状态跟踪的功能,须要通过Java代码提交一个通用的MR任务(包括mr的jar、配置文件、依赖的第三方jar包),并且须要在提交后跟踪其状态和历史,所以在提交后程序须要拿到改提交的MR的JobID。 解决方案 首先 可以想到的是通过  ${HADOOP_HOME}/bin/hadoop jar 命令来提交,并从命令执行的标准输出中取到jobID,这样确实可以解决,但是这样做有几个问题: 须要通过Java程序去启动一个子进程,并且要监控它的标准输出,性能不会很好,有点
囚兔
2018-02-08
2.3K1
Mapreduce程序中reduce的Iterable参数迭代出是同一个对象
今天在对reduce的参数Iterable进行迭代时,发现一个问题,即Iterator的next()方法每次返回的是同一个对象,next()只是修改了Writable对象的值,而不是重新返回一个新的Writable对象。 使用wordcount来验证: 我的代码如下: protected void reduce(Text key, Iterable<IntWritable> values,         Reducer<Text, IntWritable, Text, IntWritable>.Cont
囚兔
2018-02-08
1.2K0
关于Mapreduce On Yarn中Map数量的设置
同事最近对MR on Yarn中Map数量的一个小的研究,描述如下:     在新版MapReduce 中即 MR on yarn中,不支持设置Map数量。     Map的数量是由MinInputSplitSize决定的,公式: Map的数量 = TotalSize / MinInputSplitSize     要想控制Map的数量,可以通过控制MinInputSplitSize大小来控制Map数量。         如果设置的MinInputSplitSize大于BlockSize,MinInput
囚兔
2018-02-08
1.5K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档