首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据之Hadoop3简介

Hadoop3简介

提到大数据很多朋友首先会想到Hadoop,确实Hadoop作为大数据的基石在整个知识体系中起到至关重要的作用,但Hadoop不等同于大数据(关于大数据请参考”腾龙软件服务”的相关文章)。关于Hadoop的前世今生就不展开了,感兴趣的朋友可自行搜索。

Hadoop能做什么

Hadoop的核心功能

数据的存储

数据的计算与分析

Hadoop整体架构

Hadoop现在的大版本号为3,它在前版本的基础上进行了的改造,增加了新的模块,无论在功能还是性能上都有了质的提升。

HDFS

hadoop的数据存储依赖于HDFS(Hadoop DistributedFile System),它是一种高可靠的文件存储系统。在分布式环境中默认会把数据复制到三个结点上,如有结点死机时可从另其它结点取得,新点加入时又会自动将数据备份上去。

名称解释

NameNode:hadoop对外服务的窗口,它接收客户端的各种请求,同时管理各个数据结点。

Secondary NameNode:当NameNode不能工作时,Hadoop自动启动备用结点。

DataNode:数据结点,负责数据的存取工作。

Client:它可管理HDFS,与NameNode通讯为了取得文件的位置,和DataNode交互时进读写文件。

NameNode与Secondary NameNode是工作在同一台机器上的二个进程。高可能用生产环境中,可搭建分布式NameNode,再通过zookeeper管理它们。

YARN架构

YARN是从Hadoop2引入的模块,它负责整个集群的资源管理和调度,并可以将各种计算运行在一个集群中。

MapReduce

MapReduce是一种用于大规模并行计算的编程模型,它可让编程人员在不熟悉分布式计算的情况下,将程序运行分布式系统中。它自动将任务划分到不同的结点上运行,并对运行结果自动收集、存储、分析,大幅减少软件开发人员的工作量。

MapReduce执行流程

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180611G0UW4M00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券