专栏首页用Spark做数据科学

用Spark做数据科学

我们与Exaptive的数据科学家Frank Evans就Spark在数据科学中的地位进行了非常愉快的交流。

问:Spark成功实现数据科学项目的关键是什么?

答:首先确定Spark是否是实现你的目标的最佳工具。虽然它是数据科学中最热门的工具之一,但它并不一定在所有情况下都是最佳解决方案,只是简单地使用Spark并不能确保数据科学项目的成功。

了解你正在尝试解决的商业问题。Spark适合那些需要在真正的大型服务器上快速执行数据计算的复杂工作。如果你确实有很多数据或要面对计算上的复杂挑战,你将要花费大量的时间和金钱让Spark运行起来,而这两者都需要很大投入。

我曾经是Sonic快餐店的数据科学家。我们最初拥有标准的企业分析,没有复杂计算的挑战。当我们引入交互式菜单板时,开始生成大量的点击流数据,我们希望用这些数据来改进我们的定向营销工作,实现A / B测试,改善客户体验并为我们的研究和开发工作提供信息。这为Spark创建了一个应用需求,我们在开始满足市场营销需求后发现了很多用例。

问:公司如何通过Spark在数据科学方面获益?

答:随时了解所有发生在大数据(Big Data)和Spark领域上的变化。Spark和大数据工具很难学,但是一旦你学会了它们,你的工作就变得非常高效。此外,Hive与Stinger和Spark SQL等工具也更容易在短时间内上手。

将这两者交给理解这个领域的人——不只是一两个只知道大数据的人,否则他们将在工作中出现瓶颈。引入交互式数据应用程序(如Exaptive,Platfora和Datameer)来构建交互式视觉效果,以便人们深入了解数据以找到问题的答案或探索预想的假设。使每个人都能了解这个领域,并得到他们所需要的数据从而作出明智的选择。

问:Spark在过去一年中有何变化?为什么它取代R语言成为了“大数据”架构?

答:我认为有三个不同的因素。大数据不一定是计算性的,并不一定能提供分析的见解。数据科学涉及激烈的机器学习与数据,但不一定是大数据。使用多个数据服务器的大数据科学在计算上非常复杂。

R语言不是大数据工具。R语言更多是一种交互语言。R语言的环境不能扩展到大数据,但它可以通过分析来实现你的目标。Spark,Scala和Java高度相关。它们充当Java,R和SQL的底层转换引擎。你可以使用R作为Spark的基础语言。中级技术数据科学家倾向于Spark并通过R语言或Scala进行交互。R语言正在成为企业代替SQL Server表编写代码的语言。

问:您的客户用数据科学和Spark解决了哪些现实问题?

答:我们与俄克拉何马大学合作为一个学术研究语料库进行文本分析,该语料库包含了25年的国会听证会记录。我们启用了对文本的探究,而无需阅读页数从5到100多页的20,000个条目。

我们帮助测试了一篇论文,内容是关于国会在过去25年里如何讨论国际议题,以及随着时间和党派的不同,对话的基调如何变化。我们使用Spark研究了25,000个文档,方法是基于委员会使用的关键术语构建与元数据绑定的主题模型,并跟踪术语随时间演变的过程。我们通过Spark引擎来使用Spark的池分割数据来构建不同的模型,并使用一种机制来探索数据集。

我们可以将大量的信息应用到与元数据相结合的大量文本数据上。

问:您认为哪些最常见的问题阻碍了公司利用Spark从数据科学中获益?

答:首先是能够找到知道他们在做什么并且对这些技术有所了解的人。为业务级别和技术专业人员提供构建功能、制作翻译层的技术专家,让这些工具变得越来越易于​​使用,很多公司都在解决这个问题。

其次是让专家建立环境和基础设施。这可能需要六个月的时间才能建立。前期的复杂问题会导致失败,浪费时间和金钱。虽然工具越来越容易使用,但集成起来仍然比需要的本身要困难。

第三是来自不同格式不同源的数据差异。但是,这是一个比前两者更容易解决的问题。

问:您认为Spark在数据科学领域持续发展的最大机会在哪里?

答:在数据科学领域的工具里Spark占80%。Python binding、R binding、Spark SQL使构建交互层变得更容易,这些工具构建了应用程序集和可视化的SQL查询。Spqrk机器学习也很不错。如果您了解现有工具的高级库,Spark就更有意义——它是嵌入到嵌入式系统中的一个自然的插件,比如Hive Stinger首创的在后台嵌入Spark引擎和功能的自感知代码。

R语言,Python和SQL必须被编译为更低级的语言。这些工具不断变得更好,更有效。在过去的两年里,Spark的变化比Oracle在过去的10年里变得更多。将Spark引擎嵌入到我们现在看到的事物中,你不必从头开始学习。Spark引擎更多地嵌入到企业级工具中。

问:开发人员使用Spark从事数据科学项目需要哪些技能?

答:这取决于他们的兴趣在哪里。1)如果他们想要将Spark应用于SQL,则可以启动并运行一个小型Spark环境,使用它提交查询并获取报告。2)如果开发人员有兴趣构建转换层,他们需要了解Spark如何解决问题。执行此操作的代码非常简单。学习如何解决一系列问题,如何解决会产生更大意义上的解决方案的单个组件中的问题。一旦你完成了这个代码就清楚了。通过并测试假设很容易。

问:关于Spark和数据科学,您认为开发人员还需要知道什么?

答:清洁数据很重要。当得到非常大的数据集时,你就不需要进行非常复杂的计算。模式识别提供了直接的分析,并将它们与噪声分离开来。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【数据科学】数据科学中的 Spark 入门

    本文由 伯乐在线 - zhique 翻译,xxmen 校稿。未经许可,禁止转载! 英文出处:Ram Sriharsha。欢迎加入翻译组。 Apache Spar...

    陆勤_数据人网
  • 【数据科学】数据科学可以做什么

    机器学习是数据科学的发动机。每种机器学习方法(也称为算法)获取数据,反复咀嚼,输出结果。机器学习算法负责数据科学里最难以解释又最有趣的部分。数学的魔法在此发生。...

    陆勤_数据人网
  • 【Python环境】 信息图:用Python做数据科学

    我想通过学习Python语言来学习数据科学,所以我在谷歌上搜索:“我想通过学习Python语言来学习数据科学。”而在谷歌,不一会儿的功夫就列出所有关于Pytho...

    陆勤_数据人网
  • 【数据科学】数据科学家与数据科学

    仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。 一、数据科学家的起源 "数据科...

    陆勤_数据人网
  • 使用Spark轻松做数据透视(Pivot)

    spark从1.6开始引入,到现在2.4版本,pivot算子有了进一步增强,这使得后续无论是交给pandas继续做处理,还是交给R继续分析,都简化了不少。大家无...

    麒思妙想
  • 50个数据科学应用领域|数据科学

    数据就是资源,如何利用此资源创造商业价值,大家共同研究和实践的问题。数据科学专注于从数据中学习那些有商业价值的东西并加以利用,玩数据的人角色多样,有数据分析师、...

    陆勤_数据人网
  • 为什么 Spark 在数据科学界这么红?

    Spark 是 Apache 的顶级项目,一举一动都在整个社区的瞩目之下。凡是由 Apache 推动的项目,自然大概率是比较成功的。回想 Google 当年没...

    Lenis
  • 为什么75%的数据科学家使用R做数据分析?

    作者   CDA 数据分析师 数据科学家被认为是21世纪最性感也是最具发展前景的职业,目前有75%左右的数据科学家使用R语言,有35%左右的数据科学家将R语言作...

    CDA数据分析师
  • 让 Kotlin 为数据科学做好准备

    今年在 2019 年 KotlinConf 上,Roman Belov 概述了 Kotlin 的数据科学方法。既然该演讲现在已公开,我们决定重述一下,并分享一些...

    bennyhuo
  • 【数据科学】什么是数据科学家与数据科学

    仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。 一、数据科学家的起源 “数据科学”...

    陆勤_数据人网
  • 大数据学习过程中需要看些什么书?学习路线

    很多朋友对大数据行业心向往之,却苦于不知道该如何下手。作为一个零基础大数据入门学习者该看哪些书?今天给大家推荐一位知乎网友挖矿老司机的指导贴,作为参考。

    用户2292346
  • Databricks公司联合创始人、Spark首席架构师辛湜:Spark发展,回顾2015,展望2016

    【CSDN现场报道】2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司...

    CSDN技术头条
  • 提交Spark作业 | 科学设定spark-submit参数

    关于spark-submit的执行过程,读Spark Core的源码能够获得一个大致的印象。

    大数据真好玩
  • 干货| 机器学习 Pipeline 初探(大数据Spark方向)

    人类经历了从农业革命到工业革命,再到信息革命。信息革命,起源于互联网的诞生,它将会经历三个阶段的跃迁。第一阶段,人与人的连接(网络的雏形),比如:Faceboo...

    fishexpert
  • 【Spark机器学习实战】 ML Pipeline 初探

    人类经历了从农业革命到工业革命,再到信息革命。信息革命,起源于互联网的诞生,它将会经历三个阶段的跃迁。第一阶段,人与人的连接(网络的雏形),比如:Faceboo...

    fishexpert
  • 【数据科学】如何学习数据科学

    本文翻译自一篇博客文章,作者是一名软件工程师,他描述了在五年时间内学习数据科学的经历和心得,他的学习途径包括了自学(书籍、博客、小项目),课程学习,教学讨论,会...

    陆勤_数据人网
  • 【数据科学】数据科学家教你用数据模型来恋爱。

    男生和女生分别是来自不同星球的科学事实已经众所周知的了.男生们总是认为,女生们都是迷一样的生物,他们的情感状态浮动似乎是以秒单位在变化的,难以理解,更勿论预测了...

    陆勤_数据人网
  • 10本值得你读的Apache Spark书籍

    Apache Spark是Apache的开源大数据框架,具有与SQL,流,图处理和机器学习有关的内置模块。它于2010年开源,从一开始就对大数据和相关技术产生了...

    加米谷大数据
  • 数据科学通识第三讲:数据科学的应用

    目前数据科学已经广泛地应用到了各行各业中。从新兴的互联网产业到传统的工业、农业、能源、房地产、建筑、电子商务、文化、娱乐等多个行业领域,都在运用数据科学技术,改...

    数据酷客

扫码关注云+社区

领取腾讯云代金券