前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据入门与实战-Hadoop生态圈技术总览

大数据入门与实战-Hadoop生态圈技术总览

作者头像
致Great
发布2019-03-15 11:06:22
9790
发布2019-03-15 11:06:22
举报
文章被收录于专栏:程序生活程序生活

1 Hadoop生态圈技术纵览

2 分布式概念

3 HDFS 读写过程

HDFS 读过程

HDFS 写过程

4 伪分布式集群

5 MapReduce

MapReduce是一个编程框架,允许我们在分布式环境中对大型数据集执行分布式和并行处理:

  • MapReduce由两个不同的任务组成 Map和Reduce。
  • 正如MapReduce的名称所示,reducer阶段发生在mapper阶段完成之后。
  • 因此,第一个是Map任务,其中读取并处理数据块以生成作为中间输出的键值对。
  • Mapper或map作业(键值对)的输出被输入到Reducer。
  • reducer从多个map作业中接收键值对。
  • 然后,reducer将这些中间数据元组(中间键值对)聚合成一组较小的元组或键值对,这是最终输出。

MapReduce教程:MapReduce的字数统计示例 让我们通过一个示例来了解MapReduce是如何工作的,有一个 名为example.txt的文本文件,其内容如下:

代码语言:javascript
复制
Dear, Bear, River, Car, Car, River, Deer, Car ,Bear

现在,假设我们必须使用MapReduce对sample.txt执行单词统计,将找到这些单词和每个单词出现的次数。

  • 首先,我们将输入分成三个分区,如图所示。这将在所有Map节点之间分配工作。
  • 然后,我们对每个映射器中的单词进行标记,并为每个标记或单词提供硬编码值(1)。给出硬编码值等于1的理由是每个单词本身都会出现一次。
  • 现在,将创建一个键值对列表,其中键是单词和值是1。所以,对于第一行(Dear, Bear, River),我们有3个键值对 - Dear,1; Bear,1; River,1。映射过程在所有节点上保持不变。
  • 在映射器阶段之后,发生分区和重排的分区过程,以便将具有相同键的所有元组发送到相应的reducer。
  • 因此,在排序和重排阶段之后,每个reducer将具有唯一键和与该键相对应的值列表。例如,Bear,[1,1]; Car,[1,1,1] ..等
  • 现在,每个Reducer计算该值列表中存在的值。如图所示,reducer获取一个值列表,其中键值为[1,1]。然后,它计算列表中的1的数量,并将最终输出给出为 - Bear,2。
  • 最后,然后收集所有输出键/值对并将其写入输出文件中。

参考资料

MapReduce Tutorial – Fundamentals of MapReduce with MapReduce Example https://www.cniao5.com/

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019.03.08 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Hadoop生态圈技术纵览
  • 2 分布式概念
  • 3 HDFS 读写过程
  • 4 伪分布式集群
  • 5 MapReduce
  • 参考资料
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档