问:在MapReduce进行数据处理时,会进行split数据切片,它的默认拆分规则是?如果不按照默认规则进行拆分,会发生什么现象?
答:
Math.max(minSize, Math.min(maxSize, blockSize));
mapreduce.input.fileinputformat.split.minsize=1 默认值为1
mapreduce.input.fileinputformat.split.maxsize= Long.MAXValue 默认值Long.MAXValue
blockSize为128M
mapreduce.input.fileinputformat.split.maxsize
mapreduce.input.fileinputformat.split.minsize
while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
...
bytesRemaining -= splitSize;
}
今天的单点,你是否get到了呢?每日单点,用5分钟收获一点!今天你打卡了没?
如果有帮助的,记得点赞、关注。在公众号《数舟》中,可以免费获取专栏《数据仓库》配套的视频课程、大数据集群自动安装脚本,并获取进群交流的途径。
我所有的大数据技术内容也会优先发布到公众号中。如果对某些大数据技术有兴趣,但没有充足的时间,在群里提出,我为大家安排分享。