【技术】Hadoop选择:可供参考的几大因素

Apache Hadoop的发展已经经历了很长一段时间,也经历也一段从初生到成熟之旅,在Apache Hadoop的起步阶段,主要支持类似搜索引擎的功能。如今,Hadoop已经被数十个行业采用,它们依靠大数据计算来提升业务处理性能。政府、制造业、医疗保健、零售业和其他部门越来越多的从经济发展和Hadoop计算能力中受益,然而受到传统企业解决方案限制的公司将会发现竞争变得越来越残酷。

选择一个合适的Hadoop发行版和在业务中应用Hadoop一样有必要。最终,你会发现选择哪种Hadoop发行版取决于主机的规格,尽管性能和扩展性才是你应该仔细检查的两个主要特性。让我们了解一下一些具体的Hadoop性能和扩展性要求,以及对几个关键架构的要求。

性能

企业需要摆脱传统的数据库解决方案来管理数据,主要原因是为了增加原始性能并获得可扩展性。这可能会让你感到惊讶,因为并不是所有创建出的Hadoop分布系统都一样。

在我的另一篇文章中曾讲到,增加250毫秒的延迟可能会毁掉整个线上销售的旺季,我们可以了解一下为什么性能的低下(高延迟)会让人难以忍受。网站性能的迟缓会使线上的销售转化率下降7%,这对于流量很大的线上零售商来说意味着数百万美元的损失。

正如你在下图看到的那样,将MapR M7版本与另一个Hadoop发行版对比,在延迟上的差别意味着性能的不同,而不同发行版之间性能差距也是惊人的。

当你考虑Hadoop的实时应用时,比如金融安全系统的实时应用,那样对高性能增加的要求甚至更高。

要特别感谢像Hadoop这样的技术,它使金融罪犯窃取数字资产变得越来越难,金融服务公司比如Zions银行现在已经能够在银行客户感觉到任何实质性影响之前阻止财务欺诈。对于分析和实时数据响应来说,高性能和可靠性很有必要,这可以阻止破坏性欺诈活动。

扩展性

Hadoop的另一个主要优点是可扩展性。不用通过单一的企业服务器限制数据吞吐量,Hadoop可以跨计算机集群完成对大型数据集的分布式处理,从而在商品化硬件多个部分之间采用逐个击破的办法消除数据上限。

这种体系结构只是数据可扩展性提升的起点,还远没有结束。关于可扩展性,Hadoop平台内还有三个方面需要进一步考虑:

文件瓶颈

Hadoop默认的体系结构利用单一NameNode作为剩余数据节点的主节点。因为单个NameNode,所有数据被迫进入到一个瓶颈期,这就将Hadoop集群限制在只能有5000万到2亿个文件。

单个NameNode的执行情况也需要使用商业级NAS,而不是预算友好型的商品化硬件。

对于单一NameNode体系结构有一种更好的选择——使用分布式元数据结构。下面提供两种体系结构的可视化比较:

正如你所看到的那样,分布式元数据架构使用的完全是商品化硬件,不仅节省了成本,它还使性能提升了10-20倍,摆脱了文件瓶颈,使文件数上限达到了10亿,比单个NameNode的体系结构在容量上提升了5000倍,这确实是很大的成功。

节点扩展

Hadoop的一些较小用户对数据存储和处理并没有太高要求,因此能够在更少的节点上运行,而有些Hadoop实现则可以达到了数千节点的规模。

这也是Hadoop可扩展性非常出色的地方。从一个入门级大数据实现扩展到具有数千个节点的集群很容易,按照需求增加商品化硬件可以使成本最小化,这涉及到数据处理成本以及需求增加所需投入的成本。

节点容量

除了节点的数量,考虑到物理存储限制,Hadoop用户还应该检查每个处理和存储容量。你可以使用具有更高磁盘密度的节点减少总体节点数量,同时还能保证数据存储的要求。

 架构基础

Hadoop的性能和可扩展性可以被进一步提升,前提是你要有多架构基础分布式系统的思想。

 减少软件层

软件层太多,会导致导航成本的增加,使Hadoop系统的性能很难得到提升。

 使所有应用程序在同一个平台上运行

一些Hadoop发行版可能会要求你创建多个实例,一个优化执行将使同一个环境中所有的工作负载被同时处理,这就减少了重复数据的产生,因此提高了可扩展性和性能。

 利用公共云平台获取更好的弹性和可扩展性

一个好的发行版使你可以在自己的防火墙内灵活地使用Hadoop以及可靠的云环境,比如亚马逊网络服务和谷歌计算引擎。

最后,选择正确的Hadoop发行版应符合业务需求,不仅仅考虑当前的需求还应考虑未来的需求。分析每个发行版的性能和可扩展性,同时考虑架构基础,这也是在组织内成功实施和评估Hadoop的基础。

D1Net评论:

 选择正确的Hadoop应结合自身实际,参考以上几种因素,进行客观分析,做出慎重选择,对于用户而言,选择合适的Hadoop是非常关键的,如果在选择环节出现问题,那么在应用过程中就出现很多隐患。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2014-04-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

关于大数据你需要知道的一切

摘要:分析大量的数据只是使大数据与以前的数据分析不同的部分,还需要了解其他三方面是什么。 人类每天都吃、睡、工作、玩,这生产数据并且是大量的数据。根据IBM的数...

1925
来自专栏PPV课数据科学社区

浅谈开源大数据平台的演变

一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台,但真正...

3636
来自专栏PPV课数据科学社区

【平台】[Kafka系列]Kafka在大数据生态系统中的价值

? 作者 Jun Rao 为ODBMS撰写文章的转载。译者 Brian Ling,专注于三高(高性能,高稳定性,高可用性)的码农。 近几年, Apache K...

41614
来自专栏大数据文摘

Google停用MapReduce,高调发布Cloud Dataflow

2686
来自专栏智能计算时代

微软数据湖架构

一个无限制的数据湖为智能行动提供动力: 存储和分析PB级大小的文件和数以万亿计的对象 开发大规模并行程序简单 调试和优化您的大数据程序轻松 企业级安全,审计和支...

5113
来自专栏美团技术团队

行进中换轮胎——万字长文解析美团和大众点评两大数据平台是怎么融合的

背景 互联网格局复杂多变,大规模的企业合并重组不时发生。原来完全独立甚至相互竞争的两家公司,有着独立的技术体系、平台和团队,如何整合,技术和管理上的难度都很大。...

39817
来自专栏安全领域

启动物联网项目所需的一切:第 1 章

本文旨在帮助读者围绕物联网或流处理系统的技术问题,建立完整的基础和多方面的理解。

7608
来自专栏网站设计制作、数字营销

现代企业公司网站做什么样的显得比较高端前沿

现代企业公司的网站比较前沿的设计都是什么样子的呢?或者说是现代企业公司网站要是新做个网站或者说是改版要改成什么样子的比较合适和符合潮流呢?

1293
来自专栏钱塘大数据

【干货】华为九大热门开源项目,你了解多少?

世界 500 强的华为,旗下设有华为开源软件能力中心。是基于华为开源战略新成立的部门。承担开源新技术扫描与规划、开源技术研究、开源开发方法探索、开源社区运营和开...

1493
来自专栏企鹅号快讯

大数据处理必备的十大工具!

大数据的日益增长,给企业管理大量的数据带来了挑战的同时也带来了一些机遇。下面是用于信息化管理的大数据工具列表: 1.ApacheHive ? Hive是一个建立...

2487

扫码关注云+社区

领取腾讯云代金券