前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【单点】每日突破,MapReduce Split

【单点】每日突破,MapReduce Split

作者头像
十里桃花舞丶
发布2021-09-10 11:08:56
3970
发布2021-09-10 11:08:56
举报
文章被收录于专栏:桥路_大数据桥路_大数据

MapReduce Split

问:在MapReduce进行数据处理时,会进行split数据切片,它的默认拆分规则是?如果不按照默认规则进行拆分,会发生什么现象?

答:

  • MapReduce默认按照128M进行数据split切分(与HDFS Block大小相同),具体计算规则为:
代码语言:javascript
复制
Math.max(minSize, Math.min(maxSize, blockSize));   
mapreduce.input.fileinputformat.split.minsize=1 默认值为1  
mapreduce.input.fileinputformat.split.maxsize= Long.MAXValue 默认值Long.MAXValue  
blockSize为128M 
  • 可以通过改变minsize、maxSize参数,来调整split规则。
代码语言:javascript
复制
mapreduce.input.fileinputformat.split.maxsize
mapreduce.input.fileinputformat.split.minsize
  • 当剩余的文件大于splitSize的1.1倍时,才进行拆分,避免生成较小的切片。例如当前文件为129M,小于splitSize(128M)的1.1倍,所以不做拆分。
代码语言:javascript
复制
while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
    ...
    bytesRemaining -= splitSize;
}
  • 如果数据存储在HDFS中,按128M进行拆分。调整了split大小后,会导致数据移动。假设需要处理的文件大小为300M,存储到HDFS中后被拆分为3个Block块(128M、128M、44M)。此时MapReduce按照100M进行split,那么Block1拆出100M后剩余的28M会通过网络传输到Block2节点,Block2拆分100M后剩余56M通过网络传输到Block3节点,Block3此时正好拥有100M数据,完成切分。这个过程,会增加额外开销。

今天的单点,你是否get到了呢?每日单点,用5分钟收获一点!今天你打卡了没?


后话

如果有帮助的,记得点赞、关注。在公众号《数舟》中,可以免费获取专栏《数据仓库》配套的视频课程、大数据集群自动安装脚本,并获取进群交流的途径。

我所有的大数据技术内容也会优先发布到公众号中。如果对某些大数据技术有兴趣,但没有充足的时间,在群里提出,我为大家安排分享。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-07-17 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • MapReduce Split
  • 后话
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档