开源框架Hadoop发布新版本

分布式计算开源框架Hadoop近日发布了今年的第一个版本Hadoop-2.3.0,新版本不仅增强了核心平台的大量功能,同时还修复了大量bug。

新版本对HDFS做了两个非常重要的增强:

支持异构的存储层次

通过数据节点为存储在HDFS中的数据提供了内存缓存功能

借助于HDFS对异构存储层次的支持,我们将能够在同一个Hadoop集群上使用不同的存储类型。此外我们还可以使用不同的存储媒介——例如商业磁盘、企业级磁盘、SSD或者内存等——更好地权衡成本和收益。如果你想更详细地了解与该增强相关的信息,那么可以访问这里。

类似地,在新版本中我们还能使用Hadoop集群中的可用内存集中地缓存并管理数据节点内存中的数据集。MapReduce、Hive、Pig等类似的应用程序将能够申请内存进行缓存,然后直接从数据节点的地址空间中读取内容,通过完全避免磁盘操作极大地提高扫描效率。Hive现在正在为ORC文件实现一个非常有效的零复制读取路径,该功能就使用了这项新技术。

在YARN方面,令我们非常兴奋的事情是资源管理器自动故障转移功能已经进入尾声,虽然在2.3.0这个版本中该功能还没有被发布,但是极有可能会包含在Hadoop-2.4中。此外,2.3.0版本还对YARN做了一些关键的运维方面的增强,例如更好的日志、错误处理和诊断等。

MapReduce的一个关键增强是MAPREDUCE-4421。借助于该功能我们已经不再需要在每一台机器上安装MapReduce二进制程序,仅仅需要通过YARN分布式缓存将一个MapReduce包复制到HDFS中就可以了。

当然,新版本还包含大量的bug修复以及其他方面的增强。例如:

YarnClientImpl类中的异步轮询操作引入了超时

修复了RMFatalEventDispatcher没有记录事件原因的问题

HA配置不会影响节点管理器的RPC地址

RM Web UI和REST API统一使用YarnApplicationState

在RpcResponseHeader中包含RPC错误信息,而不是将其分开发送

向jetty/httpserver中添加了请求日志

修复了将dfs.checksum.type定义为NULL之后写文件和hflush会抛出java.lang.ArrayIndexOutOfBoundsException的问题

如果想要了解更多的信息,请点击这里。不得不说的是,整个社区在Hadoop-2.3.0版本的发布过程中再次发挥了非常重要的作用,他们提交了很多非常重要的内容。

最后,让我们展望一下2.4版本中将会包含的一些非常令人兴奋的功能:

HDFS将会支持ACL

关键的运营能力,例如HDFS支持滚动更新,使用ProtoBufs序列化/反序列化FSImage

YARN资源管理器自动故障转移功能

YARN通用应用程序时间轴和历史服务,使得在YARN中开发和管理新框架及服务变得非常容易

本文分享自微信公众号 - 云计算D1net(D1Net02)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2014-03-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据和云计算技术

浅论Hadoop应用工作思路

随着企业对大数据越来越重视,hadoop应用达到了前所未有的高度。今天聊聊hadoop应用的工作思路,我想了下以下几方面,和大家一起讨论: 首先最重要的是建立一...

351130
来自专栏美团技术团队

HDFS NameNode重启优化

一、背景 在Hadoop集群整个生命周期里,由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启,不论采用何种架构,重启期间集群整体存在可用...

66370
来自专栏大数据和云计算技术

hadoop运行环境搭建

森哥/洋哥hadoop系列,非常适合初学者: Hive 元数据表结构详解 HDFS学习:HDFS机架感知与副本放置策略 Yarn【label-based sch...

412110
来自专栏人工智能LeadAI

流式数据 | 天天在做大数据,你的时间都花在哪了

大数据做了这许多年,有没有问过自己,大数据中,工作量最大和技术难度最高的,分别是什么呢? 01 大数据时代 我每天都在思考,思考很重要,是一个消化和不断深入的过...

46860
来自专栏大数据和云计算技术

SQL on Hadoop技术分析(一)

背景 Hadoop的诞生是划时代的数据变革,但关系型数据库时代的存留也为Hadoop真正占领数据库领域埋下了许多的障碍。对SQL(尤其是PL/SQL)的支持一...

43550
来自专栏大数据和云计算技术

Hadoop二次开发环境构建

1 Hadoop二次开发环境构建 1.1 Hadoop编译环境构建 1.1.1 系统信息 Linux版本: ? 1.1.2 编译环境准备 1.1.2.1 安装j...

37060
来自专栏大数据和云计算技术

Big data analytics beyond hadoop

今天给大家推荐一本书《big data analytics beyond hadoop》。书的名字应该可以翻译为《hadoop下一代数据分析技术》。 这本书主要...

348100
来自专栏大数据和云计算技术

HDFS学习:HDFS机架感知与副本放置策略

洋哥YARN和HDFS实践系列大作,这是第三篇,前面两篇分别是: Yarn【label-based scheduling】实战总结(二) Yarn【label-...

1.1K110
来自专栏大数据和云计算技术

SQL on Hadoop 技术分析(二)

森哥大作,接上一篇:SQL on Hadoop技术分析(一) SQL on Hadoop 技术分析(二) 本篇继续分析SQL on Hadoop的相关技术,本次...

48180
来自专栏大数据和云计算技术

Yarn【label-based scheduling】实战总结(一)

1.1 Label-based scheduling介绍 故名思议,Label based scheduling是一种调度策略,就像priority-based...

76960

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励