前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MapReduce切片机制

MapReduce切片机制

作者头像
用户4919348
发布2019-04-17 17:51:01
1.1K0
发布2019-04-17 17:51:01
举报
文章被收录于专栏:波波烤鸭波波烤鸭波波烤鸭

MapReduce切片机制

为什么需要切片

  MapReduce是一个分布式计算框架,处理的是海量数据的计算。那么并行运算必不可免,但是到底并行多少个Map任务来计算呢?每个Map任务计算哪些数据呢?这些我们数据我们不能够凭空估计,只能根据实际数据的存储情况来动态分配,而我们要介绍的切片就是要解决这个问题,

在这里插入图片描述
在这里插入图片描述

切片机制原理

  切片的规则我们需要通过阅读源代码来了解。首先我们来看下hadoop中默认的两个参数配置

1.默认参数

官网地址:http://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

mapreduce.job.split.metainfo.maxsize	10000000
mapreduce.input.fileinputformat.split.minsize	0
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2. 源码查看

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

注意:SPLIT_SLOP = 1.1,即当划分后剩余文件大小除splitSize大于1.1时,循环继续,小于1.1时退出循环,将剩下的文件大小归到一个切片上去。

// 128MB
 long blockSize = file.getBlockSize();
 // 128MB
 long splitSize = computeSplitSize(blockSize, minSize, maxSize);
 // 文件的大小 260MB
 long bytesRemaining = length;
 // 第一次 260/128=2.x > 1.1
 // 第二次 132/128=1.03 <1.1 不执行循环
 while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
   // 获取块的索引
   int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
   // 将块的信息保存到splits集合中
   splits.add(makeSplit(path, length-bytesRemaining, splitSize,
               blkLocations[blkIndex].getHosts(),
               blkLocations[blkIndex].getCachedHosts()));
   // 260-128=132MB
   bytesRemaining -= splitSize;
 }
 // 将剩余的132MB添加到splits集合中
if (bytesRemaining != 0) {
int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
splits.add(makeSplit(path, length-bytesRemaining, bytesRemaining,
           blkLocations[blkIndex].getHosts(),
           blkLocations[blkIndex].getCachedHosts()));
}

3.切片总结

FileInputFormat中默认的切片机制

  1. 简单地按照文件的内容长度进行切片
  2. 切片大小,默认等于block大小,可以通过调整参数修改,注意1.1的问题
  3. 切片时不考虑数据集整体,而是逐个针对每一个文件单独切片
  4. 一个切片(split)对应一个MapTask事例
  5. 一个job的map阶段并行度由客户端在提交job时决定
比如待处理数据有两个文件:
	file1.txt    260M
	file2.txt    10M
经过FileInputFormat的切片机制运算后,形成的切片信息如下
	file1.txt.split1--  0~128
	file1.txt.split2--  128~260
	file2.txt.split1--  0~10M。
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019年04月04日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • MapReduce切片机制
    • 为什么需要切片
      • 切片机制原理
        • 1.默认参数
        • 2. 源码查看
        • 3.切片总结
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档