【单点】每日突破，MapReduce Split

十里桃花舞丶

发布于 2021-09-10 11:08:56

5970

文章被收录于专栏：桥路_大数据桥路_大数据

MapReduce Split

问：在MapReduce进行数据处理时，会进行split数据切片，它的默认拆分规则是？如果不按照默认规则进行拆分，会发生什么现象？

答：

MapReduce默认按照128M进行数据split切分（与HDFS Block大小相同），具体计算规则为：

Math.max(minSize, Math.min(maxSize, blockSize));   
mapreduce.input.fileinputformat.split.minsize=1 默认值为1  
mapreduce.input.fileinputformat.split.maxsize= Long.MAXValue 默认值Long.MAXValue  
blockSize为128M

可以通过改变minsize、maxSize参数，来调整split规则。

mapreduce.input.fileinputformat.split.maxsize
mapreduce.input.fileinputformat.split.minsize

当剩余的文件大于splitSize的1.1倍时，才进行拆分，避免生成较小的切片。例如当前文件为129M，小于splitSize（128M）的1.1倍，所以不做拆分。

while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
    ...
    bytesRemaining -= splitSize;
}

如果数据存储在HDFS中，按128M进行拆分。调整了split大小后，会导致数据移动。假设需要处理的文件大小为300M，存储到HDFS中后被拆分为3个Block块（128M、128M、44M）。此时MapReduce按照100M进行split，那么Block1拆出100M后剩余的28M会通过网络传输到Block2节点，Block2拆分100M后剩余56M通过网络传输到Block3节点，Block3此时正好拥有100M数据，完成切分。这个过程，会增加额外开销。

今天的单点，你是否get到了呢？每日单点，用5分钟收获一点！今天你打卡了没？