前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hadoop架构体系

Hadoop架构体系

作者头像
加米谷大数据
发布2019-09-29 17:00:40
7270
发布2019-09-29 17:00:40
举报
文章被收录于专栏:加米谷大数据加米谷大数据

官方文档组织的非常清晰,主要由以下四个组件组成:HDFS、map-reduce、yarn、hadoop-common。

HDFS架构

HDFS分布式文件存储系统,主要特点是:

可以运行在普通低成本硬件之上并且具备高容错性(硬件容错)

适合高吞吐量的大数据存储,但并不强调低延迟

适合一次写,多次读的场景,不支持随机读写;

map-reduce

map-reduce是一个计算框架,绝大部分的数据处理都可以转化为map、reduce组合,然后利用map-reduce框架进行计算、处理;

yarn

资源管理器,核心的思想是将资源的调度管理与资源监控分割为两个进程,其中一个是ResourceManager,另一个是NodeManager,前者负责资源的分配、后者负责资源监控;

详细解释map过程的细节

map过程主要是实现key-value集合到key-value集合的映射,可以实一对一、一对多、多对多映射;

详细过程是:map -> group -> sorted -> partitioned

group:相同的key放到一起;

sorted:按照key进行排序

partition:对key进行分区,最终分区数量一般等于task数量;

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 加米谷大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档