hadoop发行商介绍:Hortonworks

‍‍ Hadoop是开源的,但是企业版本其实是由几家大的公司把持,这个就类似li‍‍nu‍‍x的redhat和suse一样,提供hadoop发型版本的公司主要的有Hortonworks,Cloudera,mapR。‍‍‍‍

‍‍ 今天简单介绍Hortonworks: ‍‍ ‍‍

‍‍ 先了解下Hortonworks的起源,Hortonworks公司,由Yahoo和Benchmark Capital‍‍于2011年7月联合创建,出身于名门Yahoo,Hortonworks拥有着许多Hadoop架 ‍‍构师和源代码贡献者,这些源代码贡献者以前均效力于Yahoo,而且已经为Apache Hadoop项目贡献了超过80%的源代码。‍‍

‍‍ Hortonworks的发版本框架如下:‍‍

‍‍简单介绍几个业界用得比较多的组件:

Apache Hive:Hive 基于 MapReduce 而构建,是一种数据仓库,通过用于存储在 HDFS 中的大型数据集的类 SQL 接口实现便利的数据汇总和临时查询。

‍‍Apache Mahout:Mahout 为 Hadoop 提供可扩展机器学习算法,帮助数据科技实现基于群集、分类和批处理的协作性筛选。‍‍

Apache HBase:一种面向列的 NoSQL 数据存储系统,为用户应用程序提供对于大数据的随机实时读/写访问权限。

Apache Storm:Storm 是一种分布式实时计算系统,用于处理快速、大型的数据流,为 Apache Hadoop® 2.x 带来可靠的实时数据处理功能

Apache Ambari:用于 Apache Hadoop 群集的一种开源安装生命周期管理、营运和监控系统。

Apache Oozie:Oozie Java Web 应用程序用于计划 Apache Hadoop 作业。Oozie 按顺序将多个作业组合至一个逻辑工作单位。‍‍

其他更详细的资料可以访问官网:http://zh.hortonworks.com/hadoop/。

‍‍关于hadoop开源软件,大家要有以下认识:

‍‍1、开源并不等于免费,这些发行版公司通过收取服务费的方式赚钱。‍‍

‍‍‍‍2、开源软件,如果是企业级应用,自身没有足够的研发能力的话,还是要尽量选用发型版本,以获得技术支持‍‍。

‍‍3、‍‍开源软件往‍‍往不能‍‍满足需求,二次集成‍‍,二次开发的能力很重要,但凡有一定技术能力的公司应该立足在用的基础上,应该发展和锻炼自己的技术团队。‍‍

‍‍4、业界还有很多公司也给hadoop贡献源码,但是并不发行企业版本。国内如阿里巴巴,华为等等,这些公司贡献源码,主要是要使自己的代码能合入开源主干,这样修改的代码可以得到开源社区的力量继续发展。如果开发的东西不能合入开源主干的话,一两年之后就落后于开源社区。‍‍

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2014-05-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Jerry的SAP技术分享

Hello World, S/4HANA for Customer Management 1.0

在我之前的微信公众号文章 SAP的这三款CRM解决方案,您能区分清楚么我曾经提到过我作为成都SAP研究院CRM产品开发团队的一员工作过一段时间。

35611
来自专栏钱塘大数据

InfoWorld最佳开源大数据工具奖,看看有哪些需要了解学习的新晋工具

一年一度由世界知名科技媒体InfoWorld评选的Bossie Awards于2016年9月21日公布,评选了最佳大数据工具奖,最佳大数据应用奖...

3366
来自专栏阮一峰的网络日志

DOS的历史

昨日(7月27日),微软公司的DOS操作系统迎来了30岁生日。 DOS是历史上一个划时代的产品,标识着PC(个人电脑)的崛起和普及,对计算机行业影响深远。 只有...

3454
来自专栏张善友的专栏

MySpace:开源数据处理Qizmt

MySpace发布了一个新的开源项目-Qizmt,是数据挖掘小组开发的一个分布式计算框架。Qizmt是基于MapReduce的分布式处理框架,丛所周知,这是Go...

1877
来自专栏互联网杂技

致刚入行的前端工程师

讲真,这篇文章已经憋了好多天了。其实本文可以说是“起于前端,但不止于前端。” 写作的契机是最近在指导一位北京的哥们写前端,有感而发罢了。希望能够给同行一些可行性...

2918
来自专栏蓝天

互联网后台开发需要掌握什么?

互联网后台开发,通常意味着分布式、大数据,涉及到高性能、系统容灾、数据容灾、高可用性、数据一致性等。自从2008年Hadoop在华夏大地蓬勃发展,开源如火山爆...

1343
来自专栏Jerry的SAP技术分享

SAP成都研究院廖婧:SAP C4C社交媒体集成概述

当时,我的回答提到一点,SAP注重工作与生活的平衡,这也是SAP中国官网强调的一点。

842
来自专栏企鹅号快讯

程序员一年写百万行代码是什么体验?这肯定是个Bug

2017 骄傲和遗憾都将成为过去,2018 元旦将至,春节还会远吗? 年年岁岁没对象,岁岁年年撸代码,或许这一年你还在new对象,但是依旧没有对象,让我们情场失...

2058
来自专栏祝威廉

数据天生就是流式的

部门目前核心其实就是流式计算,从根部开始(一个超大的Kafka集群)开始,延伸出一个超级庞大的树形结构。整个过程都是数据自我驱动进行流转,没有使用类似Azkab...

744
来自专栏大数据和云计算技术

大数据和云计算技术周报(第49期)

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。

952

扫码关注云+社区