前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【MapReduce】基本原理

【MapReduce】基本原理

作者头像
十里桃花舞丶
发布2021-09-10 11:24:53
3960
发布2021-09-10 11:24:53
举报

MapReduce基本原理

运算原理

首先以词频统计的案例,来描述一下MapReduce的运算原理与一些基本的概念。这里输入的数据是一些英文的文章,它有很多行组成,而每一行又包含很多单词,每个单词之间由空格隔开;现在需要使用MapReduce来统计每个单词的出现次数。

img
img

这里输入的案例数据比较少,只有三行,分别是 Deer Bear River 、 Car Car River 、 Deer Car Bear。

当数据被上传到HDFS的时候,会被自动拆分(以128M为标准)为Block存储,MapReduce在执行前,需要一个Splitting阶段来确定Map数量,默认情况下与Block数量保持一致,即Splitting阶段不做任何处理,直接沿用Block数量,然后直接在下一个阶段将计算任务移动到每个Block上即可。但Splitting真正存在的意义在于——自定义Map数量,如果需要更多的并发度,则还需要对存储在HDFS上的Block进行拆分,如果更少的并发,则对Block进行合并。

这里的Splitting使用默认情况,假设文件在被存储到HDFS时,被拆分了3个Block,每个Block分别存储了一行数据;那这里Splitting不做任何处理,即3个Split。

之后每一个Split数据块上便会启动一个Map任务,进入到Map阶段

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-08-27 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • MapReduce基本原理
    • 运算原理
    相关产品与服务
    对象存储
    对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档