腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

IT杂记

本专栏记录了本人在IT方面的各个领域的学习笔记或是遇到问题的解决思路和方法，等等..

专栏作者

55

文章

106257

阅读量

33

订阅数

Mapreduce 任务提交源码分析1

mapreduce hadoop 大数据

提交过程一般我们mapreduce任务是通过如下命令进行提交的 $HADOOP_HOME/bin/hadoop jar $MR_JAR $MAIN_CLASS hadoop脚本中有如下代码 elif [ "$COMMAND" = "jar" ] ; then CLASS=org.apache.hadoop.util.RunJar //... 略 exec "$JAVA" $JAVA_HEAP_MAX $HADOOP_OPTS $CLASS "$@" 可以看到hadoop命令提

2018-02-08

9990

通过Java程序提交通用Mapreduce任务并获取Job信息

背景我们的一个业务须要有对MR任务的提交和状态跟踪的功能，须要通过Java代码提交一个通用的MR任务（包括mr的jar、配置文件、依赖的第三方jar包），并且须要在提交后跟踪其状态和历史，所以在提交后程序须要拿到改提交的MR的JobID。解决方案首先可以想到的是通过 ${HADOOP_HOME}/bin/hadoop jar 命令来提交，并从命令执行的标准输出中取到jobID，这样确实可以解决，但是这样做有几个问题：须要通过Java程序去启动一个子进程，并且要监控它的标准输出，性能不会很好，有点

2018-02-08

2.3K1

Mapreduce程序中reduce的Iterable参数迭代出是同一个对象

今天在对reduce的参数Iterable进行迭代时，发现一个问题，即Iterator的next()方法每次返回的是同一个对象，next()只是修改了Writable对象的值，而不是重新返回一个新的Writable对象。使用wordcount来验证：我的代码如下： protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Cont

2018-02-08

1.2K0

关于Mapreduce On Yarn中Map数量的设置

同事最近对MR on Yarn中Map数量的一个小的研究，描述如下：在新版MapReduce 中即 MR on yarn中，不支持设置Map数量。 Map的数量是由MinInputSplitSize决定的，公式： Map的数量 = TotalSize / MinInputSplitSize 要想控制Map的数量，可以通过控制MinInputSplitSize大小来控制Map数量。如果设置的MinInputSplitSize大于BlockSize，MinInput

2018-02-08

1.5K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态