Hadoop 2.x与3.x 22点比较:3.x将节省大量存储空间

问题导读

1.Hadoop3.x通过什么方式来容错? 2.Hadoop3.x存储开销减少了多少? 3.Hadoop3.x MR API是否兼容hadoop1.x?

一、目的

在这篇文章中,我们将讨论Hadoop 2.x与Hadoop 3.x之间的比较。 Hadoop3版本中添加了哪些新功能,Hadoop3中兼容的Hadoop 2程序,Hadoop 2和Hadoop 3有什么区别?

二、Hadoop 2.x与Hadoop 3.x比较

本节将讲述Hadoop 2.x与Hadoop 3.x之间的22个差异。 现在让我们逐一讨论 2.1License Hadoop 2.x - Apache 2.0,开源 Hadoop 3.x - Apache 2.0,开源 2.2支持的最低Java版本 Hadoop 2.x - java的最低支持版本是java 7 Hadoop 3.x - java的最低支持版本是java 8 2.3容错 Hadoop 2.x - 可以通过复制(浪费空间)来处理容错。 Hadoop 3.x - 可以通过Erasure编码处理容错。 2.4数据平衡 Hadoop 2.x - 对于数据平衡使用HDFS平衡器。 Hadoop 3.x - 对于数据平衡使用Intra-data节点平衡器,该平衡器通过HDFS磁盘平衡器CLI调用。 2.5存储Scheme Hadoop 2.x - 使用3X副本Scheme Hadoop 3.x - 支持HDFS中的擦除编码。 2.6存储开销 Hadoop 2.x - HDFS在存储空间中有200%的开销。 Hadoop 3.x - 存储开销仅为50%。 2.7存储开销示例 Hadoop 2.x - 如果有6个块,那么由于副本方案(Scheme),将有18个块占用空间。 Hadoop 3.x - 如果有6个块,那么空间9个块,中6块空间,3块用于奇偶校验。 2.8YARN时间线服务 Hadoop 2.x - 使用具有可伸缩性问题的旧时间轴服务。 Hadoop 3.x - 改进时间线服务v2并提高时间线服务的可扩展性和可靠性。 2.9默认端口范围 Hadoop 2.x - 在Hadoop 2.0中,一些默认端口是Linux临时端口范围。所以在启动时,他们将无法绑定。 Hadoop 3.x - 但是在Hadoop 3.0中,这些端口已经移出了短暂的范围。 2.10工具 Hadoop 2.x - 使用Hive,pig,Tez,Hama,Giraph和其他Hadoop工具。 Hadoop 3.x - 可以使用Hive,pig,Tez,Hama,Giraph和其他Hadoop工具。 2.11兼容的文件系统 Hadoop 2.x - HDFS(默认FS),FTP文件系统:它将所有数据存储在可远程访问的FTP服务器上。 Amazon S3(简单存储服务)文件系统Windows Azure存储Blob(WASB)文件系统。 Hadoop 3.x - 它支持所有前面以及Microsoft Azure Data Lake文件系统。 2.12Datanode资源 Hadoop 2.x - Datanode资源不专用于MapReduce,我们可以将它用于其他应用程序。 Hadoop 3.x - 此处数据节点资源也可用于其他应用程序。 2.13MR API兼容性 Hadoop 2.x - 与Hadoop 1.x程序兼容的MR API,可在Hadoop 2.X上执行 Hadoop 3.x - 此处,MR API与运行Hadoop 1.x程序兼容,以便在Hadoop 3.X上执行 2.14支持Microsoft Windows Hadoop 2.x - 它可以部署在Windows上。 Hadoop 3.x - 它也支持Windows。 2.15插槽/容器 Hadoop 2.x - Hadoop 1适用于插槽的概念,但Hadoop 2.X适用于容器的概念。通过容器,我们可以运行通用任务。 Hadoop 3.x - 它也适用于容器的概念。 2.16单点故障 Hadoop 2.x - 具有SPOF的功能,因此只要Namenode失败,它就会自动恢复。 Hadoop 3.x - 具有SPOF的功能,因此只要Namenode失败,它就会自动恢复,无需人工干预就可以克服它。 2.17HDFS联盟 Hadoop 2.x - 在Hadoop 1.0中,只有一个NameNode来管理所有Namespace,但在Hadoop 2.0中,多个NameNode用于多个Namespace。 Hadoop 3.x - Hadoop 3.x还有多个名称空间用于多个名称空间。 2.18可扩展性 Hadoop 2.x - 我们可以扩展到每个群集10,000个节点。 Hadoop 3.x - 更好的可扩展性。 我们可以为每个群集扩展超过10,000个节点。 2.19更快地访问数据 Hadoop 2.x - 由于数据节点缓存,我们可以快速访问数据。 Hadoop 3.x - 这里也通过Datanode缓存我们可以快速访问数据。 2.20HDFS快照 Hadoop 2.x - Hadoop 2增加了对快照的支持。 它为用户错误提供灾难恢复和保护。 Hadoop 3.x - Hadoop 2也支持快照功能。 2.21平台 Hadoop 2.x - 可以作为各种数据分析的平台,可以运行事件处理,流媒体和实时操作。 Hadoop 3.x - 这里也可以在YARN的顶部运行事件处理,流媒体和实时操作。 2.22群集资源管理 Hadoop 2.x - 对于群集资源管理,它使用YARN。 它提高了可扩展性,高可用性,多租户。 Hadoop 3.x - 对于集群,资源管理使用具有所有功能的YARN。

三、结论

正如我们已经讨论了Hadoop 2.x与Hadoop 3.x之间的22个重要差异,现在我们可以看到Hadoop 2和Hadoop 3哪个更好。

关于hadoop3.x的安装部署1套小视频,观众公众号,回复2可获取

转载注明本文链接

http://www.aboutyun.com/forum.php?mod=viewthread&tid=25140

原文发布于微信公众号 - About云(wwwaboutyuncom)

原文发表时间:2018-08-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏恰童鞋骚年

Hadoop学习笔记—21.Hadoop2的改进内容简介

Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要...

9920
来自专栏Spark学习技巧

Spark设计理念和基本架构

22360
来自专栏Hadoop实操

如何使用Cloudera Manager禁用HDFS HA

前面Fayson写过《如何使用Cloudera Manager启用HDFS的HA》。本篇文章主要讲述如何使用Cloudera Manager禁用HDFS HA。

38450
来自专栏加米谷大数据

Spark核心技术原理透视二(Spark运行模式)

上一章节详细讲了Spark的运行原理,没有关注的童鞋可以关注加米谷大数据查看上一章节的详细内容。通过Spark运行原理的讲解大家了解了Spark在底层的运行,那...

67470
来自专栏编程

Spark踩坑记:Spark Streaming+kafka应用及调优

作者:肖力涛 前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消...

23150
来自专栏Hadoop实操

Hive2.2.0如何与CDH集群中的Spark1.6集成

23820
来自专栏Albert陈凯

spark性能调优之重构RDD架构,RDD持久化

当第一次对RDD2执行算子,获取RDD3的时候,就会从RDD1开始计算,就是读取HDFS文件,然后对RDD1执行算子,获取到RDD2,然后再计算,得到RDD3 ...

30960
来自专栏IT技术精选文摘

Apache Hadoop入门

介绍 本文要介绍的Apache Hadoop是一个使用简单高级编程模型实现的对大型数据集进行分布式存储和处理的软件框架。文章涵盖了Hadoop最重要的概念,对其...

30950
来自专栏祝威廉

Spark 多个Stage执行是串行执行的么?

这里的话,我们构建了两个输入(input1,input2),input2带有一个reduceByKey,所以会产生一次Shuffle,接着进行Join,会产生第...

10940
来自专栏算法channel

hadoop|计算框架从MapReduce1.0到Yarn

01 — HDFS 前面介绍了hadoop的分布式存储框架(HDFS),这个框架解决了大数据存储的问题,这是第一步。知道海量数据如何存储后,脚步不能停留,下一步...

42360

扫码关注云+社区

领取腾讯云代金券