前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hadoop是什么?

Hadoop是什么?

作者头像
黑洞代码
发布2022-03-30 20:26:17
5650
发布2022-03-30 20:26:17
举报

Hadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。Hadoop是专为从单一服务器到上千台机器扩展,每个机器都可以提供本地计算和存储。

Hadoop的架构

在其核心,Hadoop主要有两个层次,即:

1.加工/计算层(MapReduce)。2.存储层(Hadoop分布式文件系统)。

MapReduce

MapReduce是一种并行编程模型,用于编写普通硬件的设计,谷歌对大量数据的高效处理(多TB数据集)的分布式应用在大型集群(数千个节点)以及可靠的容错方式。MapReduce程序可在Apache的开源框架Hadoop上运行。

Hadoop分布式文件系统

Hadoop分布式文件系统(HDFS)是基于谷歌文件系统(GFS),并提供了一个设计在普通硬件上运行的分布式文件系统。它与现有的分布式文件系统有许多相似之处。来自其他分布式文件系统的差别是显著。它高度容错并设计成部署在低成本的硬件。提供了高吞吐量的应用数据访问,并且适用于具有大数据集的应用程序。

除了上面提到的两个核心组件,Hadoop的框架还包括以下两个模块:

1.Hadoop通用:这是Java库和其他Hadoop组件所需的实用工具。2.Hadoop YARN :这是作业调度和集群资源管理的框架。

Hadoop如何工作?

建立重配置,处理大规模处理服务器这是相当昂贵的,但是作为替代,可以联系许多普通电脑采用单CPU在一起,作为一个单一功能的分布式系统,实际上,集群机可以平行读取数据集,并提供一个高得多的吞吐量。此外,这样便宜不到一个高端服务器价格。因此使用Hadoop跨越集群和低成本的机器上运行是一个不错不选择。

Hadoop运行整个计算机集群代码。这个过程包括以下核心任务由 Hadoop 执行:

1.数据最初分为目录和文件。文件分为128M和64M(128M最好)统一大小块。

2.然后这些文件被分布在不同的群集节点,以便进一步处理。

3.HDFS,本地文件系统的顶端﹑监管处理。

4.块复制处理硬件故障。

5.检查代码已成功执行。

6.执行发生映射之间,减少阶段的排序。

7.发送排序的数据到某一计算机。

8.为每个作业编写的调试日志。

Hadoop的优势

1.Hadoop框架允许用户快速地编写和测试的分布式系统。有效并在整个机器和反过来自动分配数据和工作,利用CPU内核的基本平行度。

2.Hadoop不依赖于硬件,以提供容错和高可用性(FTHA),而Hadoop库本身已被设计在应用层可以检测和处理故障。

3.服务器可以添加或从集群动态删除,Hadoop可继续不中断地运行。

4.Hadoop的的另一大优势在于,除了是开源的,因为它是基于Java并兼容所有的平台。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-03-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 落叶飞翔的蜗牛 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Hadoop的架构
  • MapReduce
  • Hadoop分布式文件系统
  • Hadoop如何工作?
  • Hadoop的优势
相关产品与服务
云 HDFS
云 HDFS(Cloud HDFS,CHDFS)为您提供标准 HDFS 访问协议,您无需更改现有代码,即可使用高可用、高可靠、多维度安全、分层命名空间的分布式文件系统。 只需几分钟,您就可以在云端创建和挂载 CHDFS,来实现您大数据存储需求。随着业务需求的变化,您可以实时扩展或缩减存储资源,CHDFS 存储空间无上限,满足您海量大数据存储与分析业务需求。此外,通过 CHDFS,您可以实现计算与存储分离,极大发挥计算资源灵活性,同时实现存储数据永久保存,降低您大数据分析资源成本。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档