前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【译文】Spark高速实时分析

【译文】Spark高速实时分析

作者头像
小莹莹
发布2018-04-20 17:56:48
5500
发布2018-04-20 17:56:48
举报

Apache Hadoop是一个成熟的开发框架,它有庞大的生态系统,并得到了Cloudera,Hortonworks,雅虎等重要参与者的支持和贡献。Apache Hadoop为企业管理各种规模的数据提供了工具。

在过去,Hadoop的批量处理特性使得使用MapReduce就足以满足大部分企业的处理需求。然而,越来越多的数据需要更快速的处理,这些需求来自于流技术、物联网和实时分析等领域的快速发展 。这些新的需求需要新的处理模式,现在,Apache Spark作为可以满足这些需求的一项重要新技术,已经获得相当多的关注和广泛的支持。从能源到金融行业,Spark的高效和丰富的功能使它成为大数据处理框架中的一个重要部分。

图1:逻辑回归性能测试。

Spark是一个开源的、通用的计算框架,它比MapReduce更灵活,它使Hadoop程序处理能力达到内存数据处理的速度。例如,如图1所示,在逻辑回归的性能测试中,Spark的性能跑分比Hadoop MapReduce高几个数量级。

Spark的一些关键特性包括:

  1. 它利用了分布式内存;
  2. 它在并行计算中支持完整的有向无环图(DAG)作为表达式;
  3. 它可以提高开发人员的经验;
  4. 它提供了线性可伸缩性和本地化数据;
  5. 它支持容错。

Spark可以为不同类型的用户提供各种好处:信息技术开发人员受益于Spark可以支持各种流行的编程语言,如Java、Python和R,而数据科学家可以受益于Spark对机器学习的支持,包括他们自己 贡献的机器学习库。

Spark还有一个庞大且不断增长的第三方应用包,这些包使得spark可以和其他工具、环境、框架、语言集成,这些使spark功能更强大、兼容性更好。

Spark的应用场景包括:大型技术公司通过机器学习洞察用户;金融系统在几个小时内处理数以百万计的股票交易数据,而在此之前使用Hadoop MapReduce需要近一个星期才能完成;基因组学术 研究;视频系统中流处理和数据分析 ;以及卫生保健领域对疾病发生条件预测的建模。

虽然看上去spark可以应付的问题十分广泛,但是Spark架构优化的重要性对于任何场景都是至关重要的。Spark非常强大,但同时它也是是非常复杂的,因此,为了更好的应用Spark,它需要作为 一个部分集成在一个更大的、基于hadoop的数据管理平台之上。另外,为了充分利用Spark实时分析或预测分析的优势,整个数据供应链的优化是非常重要的。

作者:Akmal Chaudhri

原文链接:http://radar.oreilly.com/2015/09/accelerating-real-time-analytics-with-spark.html

本文由PPV课翻译整理,未经许可,不得转载。

1、回复“数据分析师”查看数据分析师系列文章 2、回复“案例”查看大数据案例系列文章 3、回复“征信”查看相关征信的系列文章 4、回复“可视化”查看可视化专题系列文章 5、回复“SPPS”查看SPSS系列文章 6、回复“答案”查看hadoop面试题题目及答案 7、回复“爱情”查看大数据与爱情的故事 8、回复“笑话”查看大数据系列笑话 9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载 PPV课大数据ID: ppvke123 (长按可复制)大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-10-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
GPU 云服务器
GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档