hadoop发行商介绍:Cloudera

‍‍‍‍在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。现在国内很多公司也都选用他们的发行版本(CDH)。‍‍

‍‍Cloudera由来自Facebook、谷歌和雅虎的前工程师杰夫·哈‍‍默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(‍‍Christophe Bisciglia)、埃姆·阿瓦达拉(Amr‍‍ Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(Mike Olson)在2008年创建。‍‍‍‍

‍‍首先来看下Cloudera的技术框架:‍‍‍‍

‍‍主要有几大主要的组件:

1、Hbase:Hbase是一个分布式的,扩展性很强的存储,主要受Google的Bigtable的启发,可以参考前面写过《实时分析系统(HIVE/HBASE/IMPALA)浅析》。

‍‍2、Impala:Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Que‍‍ry Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。Impala现在还谈不上成熟,Cloudera坚持在Impala上投入,相信会有一个比较好的发展。‍‍‍‍

‍‍3、Spark:spark是伯克利大学开源的一个内存分布式计算引擎。内存替代硬盘成为趋势,所以spark现在非常热门,包括腾讯,UC,淘宝都有团队在研究和应用。‍‍

‍‍相比Hortonworks,Cloudera包装的开源软件要显得少一些,可以参考前面的文章《hadoop发行商介绍:Hortonworks》,但是从目前业界的情‍‍况来看,cloudera坚持了自己的技术,普遍认为cloudera的发展潜力更大,包括最近intel放弃自己的发行版本,转而支持cloudera。‍‍‍‍

‍‍从Hortonworks和Cloudera两家都支持的力度来看,Spark是未来的一个方向,尽快现在还存在或多或少的问题,内存替代硬盘的趋势基本得到了所有人的认同。‍‍

‍‍除了Hortonworks和Cloudera两家主要的发型版提供商,Hadoop发型领域还有MapR,EMC等,各有特点。从大多数应用来说,选择 Cloudera和Hortonworks就足够了,更具技术能力的公司,可以考虑在开源的基础上封装,完善开源以适合自己的应用。当能,要考虑及时将自己的成果开源出去哦,无数的经验证明,不开源出去的软件单靠单个公司去维护,很快就会没有生命力的。‍‍

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2014-05-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据技术学习

大数据学习过程中需要看些什么书?学习路线

很多朋友对大数据行业心向往之,却苦于不知道该如何下手。作为一个零基础大数据入门学习者该看哪些书?今天给大家推荐一位知乎网友挖矿老司机的指导贴,作为参考。

4473
来自专栏SAP最佳业务实践

从SAP最佳业务实践看企业管理(182)-作业成本要素与核算模型

作业成本核算模型是实施作业成本法(Activity-Based Costing)的基础,是对作业成本法核算体系的描述,因此作业成本核算模型在作业成本法的实施过程...

3047
来自专栏鸿的学习笔记

Shark,Spark SQL,Spark上的Hive以及Apache Spark上的SQL的未来

随着Spark SQL和Apache Spark effort(HIVE-7292)上新Hive的引入,我们被问到了很多关于我们在这两个项目中的地位以及它们与S...

1222
来自专栏恰童鞋骚年

Hadoop学习笔记系列文章导航

  这是一个信息爆炸的时代。经过数十年的积累,很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之...

872
来自专栏大数据和云计算技术

SQL on Hadoop技术分析(一)

背景 Hadoop的诞生是划时代的数据变革,但关系型数据库时代的存留也为Hadoop真正占领数据库领域埋下了许多的障碍。对SQL(尤其是PL/SQL)的支持一...

3965
来自专栏陈湘玲的专栏

生儿育女的算法应用

有没有设想过,生活中突然多了个孩子会是什么体验? 如何更好Handle新身份,用科学的理论武装自己? 不妨看一下这篇不像攻略的攻略,探索新领域带来的乐趣。

1.7K6
来自专栏风火数据

教你如何成为Spark大数据高手

Spark目前被越来越多的企业使用,和Hadoop一样,Spark也是以作业的形式向集群提交任务,那么如何成为Spark大数据高手?下面就来个深度教程。

1321
来自专栏about云

Hadoop是从Lucene中独立出来的子项目--Hadoop产生背景

问题导读 我们在学习一项新知识,可能不太关注它的产生背景,但是任何故事如果脱离了它的时代,就不会在有意义。如果想了解Hadoop,我们需要知道 1.它是如何产生...

3128
来自专栏CDA数据分析师

大数据分析师为什么需要学习Spark?

作者 CDA 数据分析师 Spark这套速度极快的内存分析引擎与以往的大数据处理框架相比具有诸多优势,从而能够轻松地为大数据应用企业带来理想的投资回报。Sp...

2685
来自专栏CSDN技术头条

Cloudera旨在以Spark取代MapReduce作为默认Hadoop框架

Apache Spark内存计算框架更接近于Apache Hadoop,Cloudera今天宣布它正努力地使Spark取代默认的Hadoop数据处理框架。 “虽...

2139

扫码关注云+社区

领取腾讯云代金券