前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >hadoop发行商介绍:Cloudera

hadoop发行商介绍:Cloudera

作者头像
大数据和云计算技术
发布2018-03-08 10:21:35
9940
发布2018-03-08 10:21:35
举报
文章被收录于专栏:大数据和云计算技术

‍‍‍‍在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。现在国内很多公司也都选用他们的发行版本(CDH)。‍‍

‍‍Cloudera由来自Facebook、谷歌和雅虎的前工程师杰夫·哈‍‍默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(‍‍Christophe Bisciglia)、埃姆·阿瓦达拉(Amr‍‍ Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(Mike Olson)在2008年创建。‍‍‍‍

‍‍首先来看下Cloudera的技术框架:‍‍‍‍

‍‍主要有几大主要的组件:

1、Hbase:Hbase是一个分布式的,扩展性很强的存储,主要受Google的Bigtable的启发,可以参考前面写过《实时分析系统(HIVE/HBASE/IMPALA)浅析》。

‍‍2、Impala:Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Que‍‍ry Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。Impala现在还谈不上成熟,Cloudera坚持在Impala上投入,相信会有一个比较好的发展。‍‍‍‍

‍‍3、Spark:spark是伯克利大学开源的一个内存分布式计算引擎。内存替代硬盘成为趋势,所以spark现在非常热门,包括腾讯,UC,淘宝都有团队在研究和应用。‍‍

‍‍相比Hortonworks,Cloudera包装的开源软件要显得少一些,可以参考前面的文章《hadoop发行商介绍:Hortonworks》,但是从目前业界的情‍‍况来看,cloudera坚持了自己的技术,普遍认为cloudera的发展潜力更大,包括最近intel放弃自己的发行版本,转而支持cloudera。‍‍‍‍

‍‍从Hortonworks和Cloudera两家都支持的力度来看,Spark是未来的一个方向,尽快现在还存在或多或少的问题,内存替代硬盘的趋势基本得到了所有人的认同。‍‍

‍‍除了Hortonworks和Cloudera两家主要的发型版提供商,Hadoop发型领域还有MapR,EMC等,各有特点。从大多数应用来说,选择 Cloudera和Hortonworks就足够了,更具技术能力的公司,可以考虑在开源的基础上封装,完善开源以适合自己的应用。当能,要考虑及时将自己的成果开源出去哦,无数的经验证明,不开源出去的软件单靠单个公司去维护,很快就会没有生命力的。‍‍

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2014-05-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据和云计算技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
TDSQL MySQL 版
TDSQL MySQL 版(TDSQL for MySQL)是腾讯打造的一款分布式数据库产品,具备强一致高可用、全球部署架构、分布式水平扩展、高性能、企业级安全等特性,同时提供智能 DBA、自动化运营、监控告警等配套设施,为客户提供完整的分布式数据库解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档