Apache Hadoop 3.0.0-alpha1版发布做了哪些改进

问题导读 1.hadoop3.x必须使用哪个版本的jdk? 2.hadoop3.x是否可以配置5个namenode? 3.hadoop除了可以使用swift,还可以使用什么文件系统? 4.hadoop为何要更改一些端口? Apache Hadoop 3.0.0-alpha1包含很多重要的改进在hadoop2.x的基础上。 这个是一个alpha 版,通过开发者和使用者帮助测试和搜集反馈。API的稳定性和质量还不能保证。 概述 提倡阅读全部发布说明,这里对更改内容做一个概述。 1.Java最低版本要求从Java7更改为Java8 所有的Hadoop JARs针对运行时版本的Java 8被编译。仍在使用Java 7或更低版本的用户必须升级至Java 8。 2.支持hdfs erasure encoding 与副本相比纠删码是一种更节省空间的数据持久化存储方法。编码标准如Reed Solomon(10,4)有1.4倍的空间开销.与HDFS副本相比则是3倍空间开销。 因为纠删码主要的额外开销是在重建和执行远程读,它传统用于存储冷数据,即不经常访问的数据。当部署这个新特性时用户应该考虑纠删码的网络和CPU开销。 更多细节参考 HDFS Erasure Coding (http://hadoop.apache.org/docs/r3 ... SErasureCoding.html)文档. 3、YARN Timeline Service v.2 我们引入YARN 的alpha 1版,. YARN Timeline Service v.2 地址两大挑战:提高时间轴的可扩展性和可靠性,并通过引入流量和聚合增强可用性. ———————————————— YARN Timeline Service v.2 alpha 1让用户和开发者测试,反馈和建议为替换 Timeline Service v.1.x做准备。它应用于测试容量。最重要的是,没有启用安全性。不设置或则使用Timeline Service v.2 ,直到安全是有效的如果安全是一个关键的要求。 更多细节参考 YARN Timeline Service v.2 【http://hadoop.apache.org/docs/r3.0.0-alpha1/hadoop-yarn/hadoop-yarn-site/TimelineServiceV2.html】文档. 4、Shell 脚本重写 Hadoop的shell脚本已被重写,解决许多长期存在的漏洞,包括一些新的功能。尽管一些关键点保持兼容性,但是一些更改可能会破坏现有的安装。 不兼容的改变在发布说明中,相关的讨论在 HADOOP-9902(https://issues.apache.org/jira/browse/HADOOP-9902) 更多内容在 Unix Shell Guide文档。也可看 Unix Shell API文档,它描述了许多新的功能,特别是与可扩展性有关的功能。 5、MR任务级本地优化 MR任务级本地优化。MapReduce添加了Map输出collector的本地实现。对于shuffle密集型作业,这将会有30%以上的性能提升。 更多细节: MAPREDUCE-2841(https://issues.apache.org/jira/browse/MAPREDUCE-2841) 6、支持2个及以上 NameNodes. 允许用户运行多个Standby NN,更高的容错性。比如,通过配置3个NN和5个JournalNodes,集群能够容忍2个NN宕机而不是之前的一个。 刚开始HDFS NameNode高可用提供了一个namenode,和Standby namenode.通过规定的三个JournalNodes,复制edits 。这种架构能够容忍系统中的任何一个节点的失败。 然而,一些部署需要更高程度的容错性。这是通过这一新功能,它允许用户运行多个备用节点【Standby namenode】。例如,通过配置三个NameNodes和五个journalnodes,集群能够容忍两节点而不是一个失败。 高可用文档(http://hadoop.apache.org/docs/r3.0.0-alpha1/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html)已经更新,说明如何配置多个namenode。 7、更改多个服务的默认端口。 此前,多个Hadoop服务的默认端口是在Linux的临时端口范围(32768-61000)。这意味着在启动时,服务有时会失败,绑定到端口,由于与另一个应用程序的冲突。 这个冲突的端口已经移出这个范围,包括 NameNode, Secondary NameNode, DataNode, 和KMS。文档已更新 发布说明地址https://issues.apache.org/jira/browse/HDFS-9427 更改端口列表地址https://issues.apache.org/jira/browse/HADOOP-12811 8.支持微软Azure 数据Lake 系统连接器 hadoop支持整合软Azure 数据Lake作为一种替代Hadoop兼容的文件系统。 9、Intra-datanode 平衡器 一个DataNode管理多个磁盘

原文发布于微信公众号 - about云(wwwaboutyuncom)

原文发表时间:2016-09-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏美图数据技术团队

大数据集群安全组件解析

大数据集群的基本是数据以及用于计算的资源,企业将相应的数据和资源开放给对应的用户使用,防止被窃取、破坏等,这些都涉及到大数据安全。基于以上关键点,考虑到美图公司...

33800
来自专栏hadoop学习笔记

深度解析(一):大快DKM企业大数据管理平台基本功能

之前几周的时间一直是在围绕DKhadoop的运行环境搭建写分享,有一些朋友留言索要了dkhadoop安装包,不知道有没有去下载安装一探究竟。关于DKHadoop...

21150
来自专栏CSDN技术头条

进阶指南|三个月大数据工程师学习计划

本文来自作者在GitChat(ID:GitChat_Club)上的精彩分享,CSDN独家合作发布。 申明:本文旨在为普通程序员(Java程序员最佳)提供一个入门...

417100
来自专栏IT大咖说

你只知大数据的便利,却不知漏洞——hadoop安全完整解析

内容来源:2017 年 07 月 29 日,威客安全技术合伙人安琪在“CDAS 2017 中国数据分析师行业峰会”进行《大数据平台基础架构hadoop安全分析》...

27640
来自专栏大数据

浅析大数据HIVE和HBASE有何区别

Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语...

27860
来自专栏腾讯大数据的专栏

Hadoop Raid-实战经验总结

分布式文件系统用于解决海量数据存储的问题,腾讯大数据采用HDFS(Hadoop分布式文件系统)作为数据存储的基础设施,并在其上构建如Hive、HBase、Spa...

318100
来自专栏包子铺里聊IT

5分钟深入浅出 HDFS

通过前面几篇文章的介绍,我们深入讨论了 Hadoop MapReduce 处理数据的过程,以及优化 MapReduce 性能的方方面面。 期间被反复提及的 HD...

32260
来自专栏CSDN技术头条

Spark Streaming容错的改进和零数据丢失

本文来自Spark Streaming项目带头人Tathagata Das的博客文章,他现在就职于Databricks公司。过去曾在UC Berkeley的AM...

20190
来自专栏PPV课数据科学社区

一文看懂HIVE和HBASE的区别

两者分别是什么Apache Hive是一个构建在hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQ...

51880
来自专栏加米谷大数据

Spark Streaming应用与实战全攻略

有一块业务主要是做爬虫抓取与数据输出,通过大数据这边提供的SOA服务入库到HBase,架构大致如下:

19630

扫码关注云+社区

领取腾讯云代金券