hadoop发行商介绍:Cloudera

‍‍‍‍在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。现在国内很多公司也都选用他们的发行版本(CDH)。‍‍

‍‍Cloudera由来自Facebook、谷歌和雅虎的前工程师杰夫·哈‍‍默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(‍‍Christophe Bisciglia)、埃姆·阿瓦达拉(Amr‍‍ Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(Mike Olson)在2008年创建。‍‍‍‍

‍‍首先来看下Cloudera的技术框架:‍‍‍‍

‍‍主要有几大主要的组件:

1、Hbase:Hbase是一个分布式的,扩展性很强的存储,主要受Google的Bigtable的启发,可以参考前面写过《实时分析系统(HIVE/HBASE/IMPALA)浅析》。

‍‍2、Impala:Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Que‍‍ry Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。Impala现在还谈不上成熟,Cloudera坚持在Impala上投入,相信会有一个比较好的发展。‍‍‍‍

‍‍3、Spark:spark是伯克利大学开源的一个内存分布式计算引擎。内存替代硬盘成为趋势,所以spark现在非常热门,包括腾讯,UC,淘宝都有团队在研究和应用。‍‍

‍‍相比Hortonworks,Cloudera包装的开源软件要显得少一些,可以参考前面的文章《hadoop发行商介绍:Hortonworks》,但是从目前业界的情‍‍况来看,cloudera坚持了自己的技术,普遍认为cloudera的发展潜力更大,包括最近intel放弃自己的发行版本,转而支持cloudera。‍‍‍‍

‍‍从Hortonworks和Cloudera两家都支持的力度来看,Spark是未来的一个方向,尽快现在还存在或多或少的问题,内存替代硬盘的趋势基本得到了所有人的认同。‍‍

‍‍除了Hortonworks和Cloudera两家主要的发型版提供商,Hadoop发型领域还有MapR,EMC等,各有特点。从大多数应用来说,选择 Cloudera和Hortonworks就足够了,更具技术能力的公司,可以考虑在开源的基础上封装,完善开源以适合自己的应用。当能,要考虑及时将自己的成果开源出去哦,无数的经验证明,不开源出去的软件单靠单个公司去维护,很快就会没有生命力的。‍‍

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2014-05-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏祝威廉

为什么说Spark SQL远远超越了MPP SQLSpark SQL 成为了一种跨越领域的交互形态

这里说的并不是性能,因为我没尝试对比过(下文会有简单的说明),而是尝试从某种更高一层次的的角度去看,为什么Spark SQL 是远远超越MPP SQL的。

471
来自专栏飞总聊IT

Elastic Search飞起来,飞起来!

公众号上有人让我聊聊Elastic Search。其实前几天上市前也有人问了,我的留言是这样的:

753
来自专栏CSDN技术头条

缓慢但胜在稳健,HBase大势已成

【编者按】对比传统RDBMS领域,NoSQL界的厮杀显然更加激烈。而在这场没有硝烟的战场中,MongoDB和Cassandra无疑是风头最劲的两个产品。但是如果...

1945
来自专栏CSDN技术头条

Cloudera旨在以Spark取代MapReduce作为默认Hadoop框架

Apache Spark内存计算框架更接近于Apache Hadoop,Cloudera今天宣布它正努力地使Spark取代默认的Hadoop数据处理框架。 “虽...

1879
来自专栏恰同学骚年

Hadoop学习笔记系列文章导航

  这是一个信息爆炸的时代。经过数十年的积累,很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之...

602
来自专栏AI研习社

2017,外媒眼中最热门数据库是哪个?

AI 研习社消息:近日,国外知名 IT 技术媒体 Jaxenter 进行了数据库观点调查,对开发者眼中数据库领域最热门的话题、最热门的数据存储以及处理工具进行统...

3578
来自专栏Hadoop实操

Impala升级为Apache顶级项目

五年前,Cloudera向全世界分享了一个愿景,将通过一个新的SQL引擎Apache Impala(全球第一个也是Hadoop之上最快的MPP SQL引擎)将数...

3889
来自专栏飞总聊IT

大数据那些事(7):腾飞的拉丁猪

2007到2008年的Hadoop世界,是Hadoop发展历史上非常关键的一年。这一年Yahoo Research 发表了Pig Latin的paper 在 S...

3407
来自专栏云计算D1net

如何成为云计算大数据Spark高手?

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和...

3367
来自专栏飞总聊IT

大数据那些事(8):HIVE之初期起

在大数据领域,发展到今天HIVE已经可以说过了集万千宠爱在一身的阶段。然而即使是过了气,我们依旧必须承认它还是有着极其巨大的影响力,广泛的使用率。无数的人依旧继...

3206

扫码关注云+社区