Hadoop3简介
提到大数据很多朋友首先会想到Hadoop,确实Hadoop作为大数据的基石在整个知识体系中起到至关重要的作用,但Hadoop不等同于大数据(关于大数据请参考”腾龙软件服务”的相关文章)。关于Hadoop的前世今生就不展开了,感兴趣的朋友可自行搜索。
Hadoop能做什么
Hadoop的核心功能
数据的存储
数据的计算与分析
Hadoop整体架构
Hadoop现在的大版本号为3,它在前版本的基础上进行了的改造,增加了新的模块,无论在功能还是性能上都有了质的提升。
HDFS
hadoop的数据存储依赖于HDFS(Hadoop DistributedFile System),它是一种高可靠的文件存储系统。在分布式环境中默认会把数据复制到三个结点上,如有结点死机时可从另其它结点取得,新点加入时又会自动将数据备份上去。
名称解释
NameNode:hadoop对外服务的窗口,它接收客户端的各种请求,同时管理各个数据结点。
Secondary NameNode:当NameNode不能工作时,Hadoop自动启动备用结点。
DataNode:数据结点,负责数据的存取工作。
Client:它可管理HDFS,与NameNode通讯为了取得文件的位置,和DataNode交互时进读写文件。
NameNode与Secondary NameNode是工作在同一台机器上的二个进程。高可能用生产环境中,可搭建分布式NameNode,再通过zookeeper管理它们。
YARN架构
YARN是从Hadoop2引入的模块,它负责整个集群的资源管理和调度,并可以将各种计算运行在一个集群中。
MapReduce
MapReduce是一种用于大规模并行计算的编程模型,它可让编程人员在不熟悉分布式计算的情况下,将程序运行分布式系统中。它自动将任务划分到不同的结点上运行,并对运行结果自动收集、存储、分析,大幅减少软件开发人员的工作量。
MapReduce执行流程
领取专属 10元无门槛券
私享最新 技术干货