hadoop发行商介绍:Cloudera

‍‍‍‍在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。现在国内很多公司也都选用他们的发行版本(CDH)。‍‍

‍‍Cloudera由来自Facebook、谷歌和雅虎的前工程师杰夫·哈‍‍默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(‍‍Christophe Bisciglia)、埃姆·阿瓦达拉(Amr‍‍ Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(Mike Olson)在2008年创建。‍‍‍‍

‍‍首先来看下Cloudera的技术框架:‍‍‍‍

‍‍主要有几大主要的组件:

1、Hbase:Hbase是一个分布式的,扩展性很强的存储,主要受Google的Bigtable的启发,可以参考前面写过《实时分析系统(HIVE/HBASE/IMPALA)浅析》。

‍‍2、Impala:Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Que‍‍ry Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。Impala现在还谈不上成熟,Cloudera坚持在Impala上投入,相信会有一个比较好的发展。‍‍‍‍

‍‍3、Spark:spark是伯克利大学开源的一个内存分布式计算引擎。内存替代硬盘成为趋势,所以spark现在非常热门,包括腾讯,UC,淘宝都有团队在研究和应用。‍‍

‍‍相比Hortonworks,Cloudera包装的开源软件要显得少一些,可以参考前面的文章《hadoop发行商介绍:Hortonworks》,但是从目前业界的情‍‍况来看,cloudera坚持了自己的技术,普遍认为cloudera的发展潜力更大,包括最近intel放弃自己的发行版本,转而支持cloudera。‍‍‍‍

‍‍从Hortonworks和Cloudera两家都支持的力度来看,Spark是未来的一个方向,尽快现在还存在或多或少的问题,内存替代硬盘的趋势基本得到了所有人的认同。‍‍

‍‍除了Hortonworks和Cloudera两家主要的发型版提供商,Hadoop发型领域还有MapR,EMC等,各有特点。从大多数应用来说,选择 Cloudera和Hortonworks就足够了,更具技术能力的公司,可以考虑在开源的基础上封装,完善开源以适合自己的应用。当能,要考虑及时将自己的成果开源出去哦,无数的经验证明,不开源出去的软件单靠单个公司去维护,很快就会没有生命力的。‍‍

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2014-05-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算D1net

将数据迁移到云:回到未来?

数百家公司现在已经证明,单一数据泄露可能会造成长期的经济,法律和品牌上的损失。除了数据保护之外,仅仅管理云中的数据是不同的,如果做法不当,成本,复杂性和风险会使...

850
来自专栏LuckQI

区块链中的跨链究竟是什么呢?

1072
来自专栏PPV课数据科学社区

警察叔叔是怎么用大数据来思考与实践的

近年来,伴随着全国各地公安机关信息化的迅猛发展,数据共享和深化应用的需求空前高涨。但是,随着数据的汇聚和数据量的爆炸式增长,传统的数据库和数据仓库技术出现了诸多...

3129
来自专栏云计算D1net

Hadoop崛起对数据仓库有多大的影响

在过去三年,Hadoop生态系统已经大范围扩展,很多主要IT供应商都推出了Hadoop连接器,以增强Hadoop的顶层架构或是供应商自己使用的Hadoop发行版...

3319
来自专栏云计算D1net

针对云安全性如何使用可视化技术

我曾经阐述了这样一个理念,即云计算并不仅仅是由商业实体所提供的服务的一个集合。与之相反,从安全性的角度来看,云计算是一个单一的可互操作性的系统,它包括了专为跨多...

3174
来自专栏腾讯移动品质中心TMQ的专栏

腾讯电量仪——智能硬件测试工具尝试之路

随着移动互联网的快速发展,智能手机对电量的消耗也变得越来越大,续航短板一直是用户吐槽的焦点,不管是iOS还是android,每天为手机充电成为一个惯例,甚至一天...

1788
来自专栏小石不识月

自主权身份简介

2017 年 5 月,印度互联网与社会研究中心(Centre for Internet and Society)发布了一份报告,其中详细说明了印度国家身份数据库...

35611
来自专栏企鹅号快讯

计算机网络安全技术

浅谈计算机网络技术安全 本文从计算机网络安全的基本知识出发,分析影响计算机网络安全的因素,并提出针对网络安全的三种技术,比较各种技术的特色以及可能带来的安全风险...

2129
来自专栏F-Stack的专栏

F-Stack参加 DPDK中国技术峰会2017

由 DPDK社区和英特尔主办的 DPDK中国技术峰会2017 于6月27日在上海举行,Intel、腾讯云、中兴、美团云、Panabit、太一星辰、Uni...

2609
来自专栏施炯的IoT开发专栏

移动物联网 之 智能家居

本系列文章结合时下正热的“物联网”概念,介绍实现“智能家居”的一套解决方案。 引言     随着科技的发展,手机已经不简单地是个通讯设备,而是人们生活的必需...

1938

扫描关注云+社区