Apache Hadoop是一个成熟的开发框架,它有庞大的生态系统,并得到了Cloudera,Hortonworks,雅虎等重要参与者的支持和贡献。Apache Hadoop为企业管理各种规模的数据提供了工具。
在过去,Hadoop的批量处理特性使得使用MapReduce就足以满足大部分企业的处理需求。然而,越来越多的数据需要更快速的处理,这些需求来自于流技术、物联网和实时分析等领域的快速发展 。这些新的需求需要新的处理模式,现在,Apache Spark作为可以满足这些需求的一项重要新技术,已经获得相当多的关注和广泛的支持。从能源到金融行业,Spark的高效和丰富的功能使它成为大数据处理框架中的一个重要部分。
图1:逻辑回归性能测试。
Spark是一个开源的、通用的计算框架,它比MapReduce更灵活,它使Hadoop程序处理能力达到内存数据处理的速度。例如,如图1所示,在逻辑回归的性能测试中,Spark的性能跑分比Hadoop MapReduce高几个数量级。
Spark的一些关键特性包括:
Spark可以为不同类型的用户提供各种好处:信息技术开发人员受益于Spark可以支持各种流行的编程语言,如Java、Python和R,而数据科学家可以受益于Spark对机器学习的支持,包括他们自己 贡献的机器学习库。
Spark还有一个庞大且不断增长的第三方应用包,这些包使得spark可以和其他工具、环境、框架、语言集成,这些使spark功能更强大、兼容性更好。
Spark的应用场景包括:大型技术公司通过机器学习洞察用户;金融系统在几个小时内处理数以百万计的股票交易数据,而在此之前使用Hadoop MapReduce需要近一个星期才能完成;基因组学术 研究;视频系统中流处理和数据分析 ;以及卫生保健领域对疾病发生条件预测的建模。
虽然看上去spark可以应付的问题十分广泛,但是Spark架构优化的重要性对于任何场景都是至关重要的。Spark非常强大,但同时它也是是非常复杂的,因此,为了更好的应用Spark,它需要作为 一个部分集成在一个更大的、基于hadoop的数据管理平台之上。另外,为了充分利用Spark实时分析或预测分析的优势,整个数据供应链的优化是非常重要的。
作者:Akmal Chaudhri
原文链接:http://radar.oreilly.com/2015/09/accelerating-real-time-analytics-with-spark.html
本文由PPV课翻译整理,未经许可,不得转载。
1、回复“数据分析师”查看数据分析师系列文章 2、回复“案例”查看大数据案例系列文章 3、回复“征信”查看相关征信的系列文章 4、回复“可视化”查看可视化专题系列文章 5、回复“SPPS”查看SPSS系列文章 6、回复“答案”查看hadoop面试题题目及答案 7、回复“爱情”查看大数据与爱情的故事 8、回复“笑话”查看大数据系列笑话 9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载 PPV课大数据ID: ppvke123 (长按可复制)大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!