Hadoop生态系统在壮大:十大炫酷大数据项目

在开发人员开发Hadoop以克服大数据带来的挑战之后的10年间,这些技术的生态系统在不断发展壮大。Apache软件基金会下面有众多的开源大数据技术项目。本文介绍一些重要项目,并顺便了解几个新兴项目。

管理和分析大数据已经变成了重大挑战,数量急剧增加的信息从社交媒体、连接到物联网中“物件”的传感器、结构化数据、非结构化数据以及可以收集的其他一切数据收集而来。为了应对这项任务,开发人员已开发了一系列新的开源技术。

旗舰软件Apache Hadoop是Apache软件基金会的一个项目,它在上个月迎来了十周年。这十年已发生了很大的变化。如今,另外许多技术也是大数据和Hadoop生态系统的一员,它们大多数都归属Apache软件基金会。

开发人员和企业组织在使用诸多项目,开发大数据技术,并将它们捐献给开源社区,以便进一步发展和采用,其中就包括Spark、Hive、HBase和Storm。

在网飞和领英等一些企业,其中一些技术已用于生产环境。它们让企业组织能够实时处理海量数据,并转换那些数据,为最终客户改善服务。

这些大数据技术常常脱胎于试图改善大数据技术的工作方式、加快处理速度的企业组织。它们代表了生态系统的演变之路和下一波开源技术,这证明明智的参与者组成的社区取得的发展胜过专有企业环境里面的发展。

当前的开源和大数据时代完全始于Hadoop,它常常被誉为是一种面向分布式存储的开源框架,用于在大众化硬件上处理庞大数据集。

Hadoop发行版公司Hortonworks的企业战略副总裁Shaun Connolly在接受采访时告诉《信息周刊》杂志:“作为一种新兴的数据架构,Hadoop成为备受瞩目的中心。Hadoop周围出现了这个生态系统,备受关注的项目围绕它壮大起来。”

而发展并未止步。新的项目一直被Apache软件基金会纳入到大数据生态系统。最近,Apache Arrow就成了一个顶级项目。其他项目可能会作为Apache软件基金会的孵化器计划(Incubator)的一员而进入生态系统。去年年底,IBM面向Spark的SystemML机器学习引擎就得到了接受,成为一个孵化器项目。

有许多项目是Apache软件基金会的大数据生态系统的一员。本文介绍了一些重要项目,还介绍了几个新兴项目。欢迎留言交流!

Hadoop

Hadoop其实是开源大数据领域的旗舰技术。它是由雅虎的一个编外项目发展起来的,当时开发人员需要一种方法来存储和处理他们使用新的搜索引擎收集而来的海量数据。这项技术最终捐献给了Apache软件基金会。如今有来自商用公司的三大发行版:Cloudera、Hortonworks和MapR。Hadoop的开发者之一Doug Cutting最近接受了《信息周刊》杂志的采访,畅谈了Hadoop的发展。

Hive

Apache Hive最初由Facebook开发,后来捐献给了Apache软件基金会。这项技术是一种建立在Hadoop基础上的数据仓库基础设施,提供了数据汇总、查询和分析。

使用Hive的公司包括CNET和eHarmony。

HBase

Apache HBase脱胎于一家名为Powerset的公司所搞的一个项目,2008年该公司被微软收购。其目的是,处理海量数据,便于自然语言搜索。这项技术是一种非关系型的开源分布式数据库,仿照了谷歌的BigTable,用Java编写而成。2010年,HBase成为Apache软件基金会的一个项目。

如今使用HBase的公司包括Adobe、Facebook、Meetup和趋势科技。

Spark

Apache Spark俨然就是大数据生态系统冉冉升起的明星。这项技术最初由加州大学伯克利分校的AMP实验室开发。它可以取代Hadoop的MapReduce,不过速度更快,因为Spark改而使用内存中处理技术,其性能最多高出100倍,这取决于具体应用。

Spark的开发人员现在供职于Databricks,该公司是支持Apache软件基金会内部这个项目的主力军,它还提供商用的Spark即服务( Spark-as-a-Service)。截至2015年年底,Spark是所有大数据项目中最活跃的开源项目,之前12个月有600多个代码捐献者。

如今许多公司使用Spark,包括亚马逊、Autodesk、电子港湾、Groupon、OpenTable和TripAdvisor。

Kafka

Apache Kafka起初只是领英公司内部的一个项目,作为一种消息传递系统,用于代理安排该公司面向消费者的职业网站及平台生成和处理的海量实时数据。

2011年,Kafka捐献给了开源社区,2012年从Apache孵化器计划出来。当初开发Kafka的领英开发人员成了从领英拆分出来的Confluent这家新公司的成员。

使用Kafka的公司包括领英、推特、网飞、Pinterest、高盛和Coursera。

Storm

Apache Storm在其项目页面上的描述是,这是一种分布式实时计算系统,让用户很容易可靠地处理无限制的数据流,正如Hadoop用于批量处理,Storm用于实时处理。

这项技术有时被称为是Spark的替代技术。2011年,开发Storm的公司BackType被推特收购。2014年,从孵化器计划出来后,Storm成为了Apache软件基金会的一个顶级项目。

此后,推特开发了自己的内部系统,用于处理最初分派给Storm的任务。使用Storm的公司包括雅虎和Spotify。

Nifi

Apache Nifi原先名叫Niagara Files,这个技术转让项目由美国国家安全局(NSA)开发,2014年11月,它作为一个孵化器项目,捐献给Apache软件基金会。2015年,它成了一个顶级项目。

Nifi旨在处理这个问题:如何让数据在系统之间的流动实现自动化。其在Apache软件基金会上的项目页面介绍,这项技术“支持功能强大、可扩展的有向图,这些有向图涉及数据路由、转换和系统中介逻辑。”

它提供了一种基于Web的用户界面。另外,与NSA开发的其他项目一样,它也提供了安全功能,包括SSL、SSH、HTTPS、加密内容,以及可插入式、基于角色的验证和授权机制。

Flink

2015年1月,Apache基金会接受Apache Flink成为一个顶级项目。这项技术是一种面向批量数据和流数据的分布式数据分析引擎,它提供了使用Java和Scala的编程API。

该项目脱胎于柏林的Stratosphere研究项目。使用Flink的企业组织包括第一资本(Capital One)和Data Artisans。

Arrow

这个月,Apache Arrow被Apache软件基金会接收为一个顶级项目。这项技术源自Dremio公司,这家公司还捐献了Apache Drill项目。Dremio的几位创始人是从MapR出来的,这是一家Apache Hadoop发行版公司。

据Apache软件基金会声称,Arrow最初是靠来自Apache Drill项目的代码起家的。据Dremio的联合创始人兼首席技术官Jacques Nadeau声称,Arrow提供了列式内存分析功能。

Apache软件基金会的更多大数据项目

这些是Apache软件基金会里面Hadoop生态系统中一些备受关注的大数据项目。另外许多是捐献而来的。所有这些项目的开发工作都在进行之中,Apache软件基金会的网站对它们都有全面记载。

Connolly告诉《信息周刊》杂志:“Apache之道就是社区比代码重要。虽然技术值得关注,但是Apache之道是把社区放在首位。”

原文发布于微信公众号 - 我是攻城师(woshigcs)

原文发表时间:2016-03-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏BestSDK

正常的Hadoop和Spark开发,都离不开这7个步骤

项目一:数据整合   称之为“企业级数据中心”或“数据湖”,这个想法是你有不同的数据源,你想对它们进行数据分析。这类项目包括从所有来源获得数据源(实时或批处理)...

382100
来自专栏灯塔大数据

塔荐 | 大数据架构师看这里:常见的七种Hadoop和Spark项目案例

导读:如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一...

39750
来自专栏PPV课数据科学社区

这七种最常见的Hadoop和Spark项目,你见过几种?

如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。 有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同...

37650
来自专栏北京马哥教育

【转】高效运维最佳实践(01):七字诀,不再憋屈的运维

专栏介绍 《高效运维最佳实践》是InfoQ在2015年推出的精品专栏,由触控科技运维总监萧田国撰写,InfoQ总编辑崔康策划。 前言 做运维的那么多,快乐的能...

31760
来自专栏云计算D1net

厂商备战大数据 技术融合成趋势

纽约时间3月18日,美国ACM协会宣布现在Microsoft Research的Leslie Lamport获得2013年的图灵奖——计算机界的最高成就奖项...

25350
来自专栏大数据文摘

数据可视化入门——我该从何开始?

246100
来自专栏知晓程序

最强微信表情包小程序,让你斗图永不落败 | 知晓程序 · MINA 奖

13740
来自专栏华章科技

不懂这25个名词,好意思说你懂大数据?

算法可以理解成一种数学公式或用于进行数据分析的统计学过程。那么,「算法」又是何以与大数据扯上关系的呢?要知道,尽管算法这个词是一个统称,但是在这个流行大数据分析...

9230
来自专栏about云

Spark AI Summits大会介绍及如何下载相关视频资料【附2018年6月AI ppt下载】

问题导读 1.Spark Summit更名为什么名字? 2.Spark集群在哪些名企应用? 3.Spark Summit的相关视频和ppt在哪可以下载? 自...

13920
来自专栏IT 指南者专栏

早睡早起为何眼睛会痛?

我的眼睛咋啦 最近的作息都挺规律,基本早睡早起,一天标准7小时,为何眼睛莫名其妙会疼痛?是中午睡不着?还是用眼过度?眼睛只要睁着都在用,可以这么...

379150

扫码关注云+社区

领取腾讯云代金券