【译文】Spark高速实时分析

Apache Hadoop是一个成熟的开发框架,它有庞大的生态系统,并得到了Cloudera,Hortonworks,雅虎等重要参与者的支持和贡献。Apache Hadoop为企业管理各种规模的数据提供了工具。

在过去,Hadoop的批量处理特性使得使用MapReduce就足以满足大部分企业的处理需求。然而,越来越多的数据需要更快速的处理,这些需求来自于流技术、物联网和实时分析等领域的快速发展 。这些新的需求需要新的处理模式,现在,Apache Spark作为可以满足这些需求的一项重要新技术,已经获得相当多的关注和广泛的支持。从能源到金融行业,Spark的高效和丰富的功能使它成为大数据处理框架中的一个重要部分。

图1:逻辑回归性能测试。

Spark是一个开源的、通用的计算框架,它比MapReduce更灵活,它使Hadoop程序处理能力达到内存数据处理的速度。例如,如图1所示,在逻辑回归的性能测试中,Spark的性能跑分比Hadoop MapReduce高几个数量级。

Spark的一些关键特性包括:

  1. 它利用了分布式内存;
  2. 它在并行计算中支持完整的有向无环图(DAG)作为表达式;
  3. 它可以提高开发人员的经验;
  4. 它提供了线性可伸缩性和本地化数据;
  5. 它支持容错。

Spark可以为不同类型的用户提供各种好处:信息技术开发人员受益于Spark可以支持各种流行的编程语言,如Java、Python和R,而数据科学家可以受益于Spark对机器学习的支持,包括他们自己 贡献的机器学习库。

Spark还有一个庞大且不断增长的第三方应用包,这些包使得spark可以和其他工具、环境、框架、语言集成,这些使spark功能更强大、兼容性更好。

Spark的应用场景包括:大型技术公司通过机器学习洞察用户;金融系统在几个小时内处理数以百万计的股票交易数据,而在此之前使用Hadoop MapReduce需要近一个星期才能完成;基因组学术 研究;视频系统中流处理和数据分析 ;以及卫生保健领域对疾病发生条件预测的建模。

虽然看上去spark可以应付的问题十分广泛,但是Spark架构优化的重要性对于任何场景都是至关重要的。Spark非常强大,但同时它也是是非常复杂的,因此,为了更好的应用Spark,它需要作为 一个部分集成在一个更大的、基于hadoop的数据管理平台之上。另外,为了充分利用Spark实时分析或预测分析的优势,整个数据供应链的优化是非常重要的。

作者:Akmal Chaudhri

原文链接:http://radar.oreilly.com/2015/09/accelerating-real-time-analytics-with-spark.html

本文由PPV课翻译整理,未经许可,不得转载。

1、回复“数据分析师”查看数据分析师系列文章 2、回复“案例”查看大数据案例系列文章 3、回复“征信”查看相关征信的系列文章 4、回复“可视化”查看可视化专题系列文章 5、回复“SPPS”查看SPSS系列文章 6、回复“答案”查看hadoop面试题题目及答案 7、回复“爱情”查看大数据与爱情的故事 8、回复“笑话”查看大数据系列笑话 9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载 PPV课大数据ID: ppvke123 (长按可复制)大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-10-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

IBM推出数据科学体验平台

从数据中寻找意义可能需要各种工具,而IBM希望通过将所有数据放在同一个平台,让数据科学家的工作更轻松。据《PC世界》网站报告,2016年6月7日,IBM宣布推出...

3508
来自专栏腾讯研究院的专栏

大数据分析的八大趋势

Intuit数据工程副主管Loconzolo双脚都已经迈进数据湖里了。Smarter Remarketer首席数据科学家DeanAbbott也为云技术的发展指...

2066
来自专栏SDNLAB

CenturyLink绘制了自己的虚拟化蓝图

据电信公司的Anil Simlot称,在虚拟化方面,CenturyLink通过使用内部开发的软件和工具开辟了自己的道路。

923
来自专栏CSDN技术头条

大数据分析的八大趋势

Intuit数据工程副主管Loconzolo双脚都已经迈进数据湖里了。Smarter Remarketer首席数据科学家DeanAbbott也为云技术的发展指出...

20510
来自专栏灯塔大数据

荐读|大数据架构面临技术集成的巨大障碍

企业可以利用Hadoop以及所有与它相关的技术设计大数据环境,以满足其特定的需求。但把所有的技术集成在一起并不是一件容易的事。 ? IT团队寻求构建大数据架构...

3235
来自专栏「3306 Pai」社区

「3306π」成都站资料大放送

感受了成都的美食、美景、萌妹砸(某月表示不想走了)、 还有技术圈的同学热情同时,3306π成都站活动也结束了。让我们回顾一下,本次活动和演讲老师的精彩分享。

1794
来自专栏灯塔大数据

荐读|掌握10到30种技术,只为创建一个大数据解决方案

如今,大数据应用程序比常规应用程序复杂10倍,开发人员通常需要了解大量的技术,以使大数据能够正常工作。 大数据的应用仍然太难了。尽管有很多的炒作的成分,但大多...

3407
来自专栏机器人网

可穿戴辅助机器人为你双手提供更多可能

你曾经尝试以单手打开瓶盖或信封封口吗?或是其他需要用两只手来做的事?现在,如果你穿戴上美国麻省理工学院(MIT)开发的新式机器手腕,这些工作要以单手来做,可说是...

2795
来自专栏CDA数据分析师

译文|大数据分析八大趋势!

Intuit数据工程副主管Loconzolo双脚都已经迈进数据湖里了。Smarter Remarketer首席数据科学家DeanAbbott也为云技术的发展指出...

2176
来自专栏Albert陈凯

企业级Hadoop、Spark平台应用、开发、整合企业级Hadoop、Spark平台应用、开发、整合

企业级Hadoop、Spark平台应用、开发、整合 公司从Hadoop向Spark整合,主要的业务需求是做实时性要求更高的一些业务 系列课程的重点就是: 实用的...

34714

扫码关注云+社区

领取腾讯云代金券