分布式计算Hadoop简介

Hadoop是什么:Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。 Hadoop是什么:Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。 Hadoop框架中最核心设计就是:HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。 数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果。

HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统。 大文件被分成默认64M一块的数据块分布存储在集群机器中。 如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中。

MapReduce:Hadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record),map会将结果以key--value 的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出,保存在HDFS上。

Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成。 如下图所示:

NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点。 NameNode同时保存了文件系统运行的状态信息。 DataNode中存储的是被拆分的blocks。 Secondary NameNode帮助NameNode收集文件系统运行的状态信息。 JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker。 TaskTracker负责某一个map或者reduce任务。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏王小雷

Spark学习之基础相关组件(1)

Spark学习之基础相关组件(1) 1. Spark是一个用来实现快速而通用的集群计算的平台。 2. Spark的一个主要特点是能够在内存中进行计算,因而更快。...

2088
来自专栏懒人开发

hadoop(1):hadoop概述

hadoop是 Doug Cutting 在 Lucene 之后的一个项目 主要用于 计算 是一个 开源,可靠,可扩展 的分布式计算框架 主要有

1043
来自专栏知识分享

串口通信DMA中断

这是以前学32的时候写的,那时候学了32之后感觉32真是太强大了,比51强的没影。关于dma网上有许多的资料,亲们搜搜,这里只贴代码了,其实我也想详详细细地叙述...

3247
来自专栏Albert陈凯

3.0Spark RDD实现详解

Spark技术内幕:深入解析Spark内核架构设计与实现原理 第三章 Spark RDD实现详解 RDD是Spark最基本也是最根本的数据抽象,它具备像MapR...

3297
来自专栏Albert陈凯

Hive迁移Saprk SQL的坑和改进办法

Qcon 全球软件开发者大会2016北京站 演讲主题:Spark在360的大规模实践与经验分享 李远策 360-Spark集群概况 ? 360-Spark集...

6417
来自专栏我是攻城师

Spark 1.3更新概述:176个贡献者,1000+ patches

3154
来自专栏蓝天

强制DataNode向NameNode上报blocks

正常情况下,什么时候上报blocks,是由NameNode通过回复心跳响应的方式触发的。 一次机房搬迁中,原机房hadoop版本为2.7.2,新机房版本为2....

1222
来自专栏Albert陈凯

3.5RDD的容错机制

3.5 RDD的容错机制 RDD实现了基于Lineage的容错机制。RDD的转换关系,构成了compute chain,可以把这个compute chain认...

2908
来自专栏about云

spark入门基础知识常见问答整理

一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpa...

36210
来自专栏性能与架构

【教程】Apache Storm 快速起步

简介 本教程介绍了 Apache Storm 的基本原理和开发方法,包括一个PDF和2个示例的源码 内容大纲 Storm 是什么 应用场景 Storm与Hado...

3183

扫码关注云+社区

领取腾讯云代金券