Cloudera旨在以Spark取代MapReduce作为默认Hadoop框架

Apache Spark内存计算框架更接近于Apache Hadoop,Cloudera今天宣布它正努力地使Spark取代默认的Hadoop数据处理框架。

“虽然IT公司将会继续添加其他数据处理框架叠加在Hadoop集群顶部,One Platinum Initiativ是一个以Spark取代MapReduce作为默认数据处理引擎的基本案。”Cloudera的产品营销总监Matt Brandwein。

大多数IT组织认为MapReduce是一个相当晦涩难懂的编程工具。出于这个原因,许多人愿意采用任意数量的SQL引擎作为查询Hadoop数据的工具。

谷歌因为没有达到预期的目标,公开宣布停止使用MapReducebecause,取而代之的是自己公司Dataflow框架。公司launchedDataflow今年早些时候一个测试版的云服务。该公司今年早些时候推出了Dataflow作为测试云服务。

当涉及到建筑分析应用程序驻留在Hadoop上, Spark框架已经受到大量的拥护。

Brandwein指出, Spark的项目比Hadoop项目更活跃50%。One Platinum倡议会实际上形式化已经用标准方法迅速构建Hadoop上分析的应用程序。

“我们希望将Apache Spark和Hadoop统一起来。”他说。“我们已经有200多个客户运行Apache Hadoop的Spark。”

Cloudera声称Brandwein有比其他Hadoop供应商多五倍多的工程资源致力于Spark,并且贡献了超过370个补丁和43000行代码给开源流分析项目。Cloudera也促使Spark集成Hadoop上的资源整合,此外集成工作涉及的SQL框架如Impala;信息传递系统如Kafka;还有数据摄入工具,如Flume。

Brandwein说他们的长期的目标是,使Spark工作规模同时在多租户集群拥有超过10000个节点成为可能,这需要Spark的可靠性、稳定性和效率显著改善。

Cloudera补充说,它也致力于使Spark更容易在企业生产环境中管理,确保Spark流至少支持80%常见流处理的工作量。最后,要使.使这些实时工作量达到.更高水平的语言层次之外,Cloudera将提高Spark流的效率。

这一倡议到底得到多少支持Cloudera也有待观察。例如,该公司与Inte和Oracle有着长期的合作关系。在这个关头,其余的IT产业似乎更致力于Cloudera的竞争对手Hortonworks提出的Hadoop分配。

原文链接:Cloudera Aims to Replace MapReduce With Spark as Default Hadoop Framework(编译/李子健、白雪 审校/朱正贵 责编/魏伟)

原文发布于微信公众号 - CSDN技术头条(CSDN_Tech)

原文发表时间:2015-09-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

3位Committer,12场国内外技术实践,2016中国Spark技术峰会议题详解

24250
来自专栏CDA数据分析师

Spark为什么能成为大数据分析主流工具?

一.Spark是什么 Spark是伯克利大学2009年开始研发的一个项目,它是大数据时代下的一个快速处理数据分析工作的框架。spark发展十分迅速,2014年,...

51650
来自专栏PPV课数据科学社区

Apache Spark新方向:深度学习和流式数据处理支持

6月5~7日,Spark Summit 2017 在美国旧金山举行。来自 Databricks 的 Matei Zaharia、Michael Armbrust...

442100
来自专栏我是攻城师

相比Hadoop,如何看待Spark技术?

28750
来自专栏风火数据

教你如何成为Spark大数据高手

Spark目前被越来越多的企业使用,和Hadoop一样,Spark也是以作业的形式向集群提交任务,那么如何成为Spark大数据高手?下面就来个深度教程。

14310
来自专栏CDA数据分析师

大数据分析师为什么需要学习Spark?

作者 CDA 数据分析师 Spark这套速度极快的内存分析引擎与以往的大数据处理框架相比具有诸多优势,从而能够轻松地为大数据应用企业带来理想的投资回报。Sp...

28150
来自专栏PPV课数据科学社区

技术丨从Hadoop到Spark,看大数据框架发展之路

谈到大数据框架,不得不提Hadoop和 Spark,今天我们进行历史溯源,帮助大家了解Hadoop和Spark的过去,感应未来。 在Hadoop出现前人们采用什...

31890
来自专栏灯塔大数据

大数据赛道上的单挑:MapReduce与Spark到底谁快?

? 通常人们认为Spark的性能和速度全面优于MapReduce,但最新的对决显示MapReduce在某些方面也有胜场,而且数据规模越大优势越大。 Apach...

37860
来自专栏大数据技术学习

大数据学习过程中需要看些什么书?学习路线

很多朋友对大数据行业心向往之,却苦于不知道该如何下手。作为一个零基础大数据入门学习者该看哪些书?今天给大家推荐一位知乎网友挖矿老司机的指导贴,作为参考。

49630
来自专栏SAP最佳业务实践

从SAP最佳业务实践看企业管理(182)-作业成本要素与核算模型

作业成本核算模型是实施作业成本法(Activity-Based Costing)的基础,是对作业成本法核算体系的描述,因此作业成本核算模型在作业成本法的实施过程...

30970

扫码关注云+社区

领取腾讯云代金券