Hadoop架构体系

官方文档组织的非常清晰,主要由以下四个组件组成:HDFS、map-reduce、yarn、hadoop-common。

HDFS架构

HDFS分布式文件存储系统,主要特点是:

可以运行在普通低成本硬件之上并且具备高容错性(硬件容错)

适合高吞吐量的大数据存储,但并不强调低延迟

适合一次写,多次读的场景,不支持随机读写;

map-reduce

map-reduce是一个计算框架,绝大部分的数据处理都可以转化为map、reduce组合,然后利用map-reduce框架进行计算、处理;

yarn

资源管理器,核心的思想是将资源的调度管理与资源监控分割为两个进程,其中一个是ResourceManager,另一个是NodeManager,前者负责资源的分配、后者负责资源监控;

详细解释map过程的细节

map过程主要是实现key-value集合到key-value集合的映射,可以实一对一、一对多、多对多映射;

详细过程是:map -> group -> sorted -> partitioned

group:相同的key放到一起;

sorted:按照key进行排序

partition:对key进行分区,最终分区数量一般等于task数量;

本文分享自微信公众号 - 加米谷大数据(DtinoneBD)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-09-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 测试开发进阶(十六)

    修改 App.vue, <HelloWorldmsg="「测试游记」"/>把msg传入

    zx钟
  • AsyncContext异步请求的用法

    在Servlet 3.0中,在ServletRequest上提供了startAsync()方法

    全菜工程师小辉
  • prometheus2.0 联邦的配置

    prometheus2.0 在参数上有原先的1.X有较大的变化,很多参数被去掉了。另外优化了CPU占用、存储空间占用等,具体可以看官方文档。

    二狗不要跑
  • SpringBoot+Shiro+Redis共享Session实例

    在单机版的Springboot+Shiro的基础上,这次实现共享Session。

    用户5224393
  • Hexo博客搭建(二)

    日更前语3. 环境搭建4. 初始化Hexo:5. 本地访问6. 个性化配置7. 引用日更结语

    efonfighting
  • 一种非大小排序(先后关系排序)—拓扑排序

    在以前很多人可能听过拓扑排序,但可能认为它太难而不愿接触学习,也不清楚是排啥序的,然而拓扑排序实际很简单,生活中也很常用,面试笔试也会遇到,所以掌握拓扑排序已是...

    全菜工程师小辉
  • MySQL5.7的多源复制

    ### 5.7上可以直接使用 stop slave; CHANGE REPLICATION FILTER REPLICATE_WILD_IGNORE_TABLE...

    二狗不要跑
  • rlwrap 小工具

    yum install readline readline-devel rlwrap -y

    二狗不要跑
  • how is component.js of extension project loaded

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    Jerry Wang
  • Prometheus使用[笔记]

    suveng

扫码关注云+社区

领取腾讯云代金券