Spark发布1.3.0版本

3月13日,Spark 1.3.0版本与我们如约而至。这是Spark 1.X发布计划中的第四次发布,距离1.2版本发布约三个月时间。据Spark官方网站报道,此次发布是有史以来最大的一次发布,共有174位开发者为代码库做出贡献,提交次数超过1000次。

此次版本发布的最大亮点是新引入的DataFrame API。对于结构型的DataSet,它提供了更方便更强大的操作运算。事实上,我们可以简单地将DataFrame看做是对RDD的一个封装或者增强,使得Spark能够更好地应对诸如数据表、JSON数据等结构型数据样式(Schema),而不是传统意义上多数语言提供的集合数据结构。在一个数据分析平台中增加对DataFrame的支持,其实也是题中应有之义。诸如R语言、Python的数据分析包pandas都支持对Data Frame数据结构的支持。事实上,Spark DataFrame的设计灵感正是基于R与Pandas。

Databricks的博客在今年2月就已经介绍了Spark新的DataFrame API。文中提到了新的DataFrames API的使用方法,支持的数据格式与数据源,对机器学习的支持以及性能测评等。文中还提到与性能相关的实现机制:

与R/Python中data frame使用的eager方式不同,Spark中的DataFrames执行会被查询优化器自动优化。在DataFrame上的计算开始之前,Catalyst优化器会编译操作,这将把DataFrame构建成物理计划来执行。

由于Catalyst进行了两种类型的优化:逻辑优化与物理优化(生成JVM bytecode),因而相较于RDD而言,DataFrame有了更好的性能表现。性能对比如下图所示:

Spark的官方网站已经给出了DataFrame API的编程指导。DataFrame的Entry Point为Spark SQL的SQLContext,它可以通过SparkContext对象来创建。如果希望DataFrame与RDD互操作,则可以在Scala中引入隐式装换,完成将RDD转换为DataFrame。由于DataFrame提供了许多Spark SQL支持的功能,例如select操作,因此,它被放到Spark SQL组件中,而不是作为另一种RDD放到Spark Core中。

在Spark 1.3.0版本中,除了DataFrame之外,还值得关注的一点是Spark SQL成为了正式版本,这意味着它将更加的稳定,更加的全面。或许,是时候从HIVE转向Spark SQL了。根据我们的项目经验,代码库从HIVE向Spark SQL的迁移还是比较容易的,毕竟二者的SQL语法非常接近。官方文档也宣称它完全向后兼容HiveQL方言。当然,如果你还在使用Shark,就更有必要将其升级到Spark SQL。

对于其他组件,如Spark ML/MLlib、Spark Streaming和GraphX,最新版本都有各种程度的增强。由于目前Spark的版本发布是定期的三个月周期发布,因此除了每次发布版本的里程碑特性外,其余特性可能都是对现有组件的增强,尤其可能是增加新的算法支持(如机器学习中对LDA的支持)或者对第三方工具的支持(如Streaming中对Kafka的Python支持)。Spark社区还会在发布版本之前对将要发布的特性进行投票,这或许是非常好的开源产品管理实践。

若需了解最新发布的Spark 1.3.0的更多内容,可以访问Spark官方网站的发布公告。

原文发布于微信公众号 - 逸言(YiYan_OneWord)

原文发表时间:2015-03-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏编程

一文读懂Apache Spark

摘要:Apache Spark快速、灵活、开发友好,是大型SQL、批处理、流处理和机器学习的主要平台。 从2009年在加州大学伯克利分校(u.c Berkele...

2090
来自专栏Hans362 's Lab

Apache Spark:承诺与挑战

如果您正在寻找处理大量数据的解决方案,那么现在有很多选择。根据您的使用情况以及您希望对数据执行的操作类型,您可以选择各种各样的数据处理框架,如Apache Sa...

1410
来自专栏华章科技

大数据架构师从入门到精通 学习必看宝典

经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数...

983
来自专栏灯塔大数据

干货|浅谈什么是Hadoop及如何学习Hadoop

首先hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。 HDFS有高容错性的特点,并且设计用来部署在...

33610
来自专栏风火数据

大数据学习资源最全版本(收藏)

Apache Hadoop:分布式处理架构,结合了 MapReduce(并行处理)、YARN(作业调度)和HDFS(分布式文件系统);

1453
来自专栏鸿的学习笔记

hadoop生态系统到底谁最强?

当你打开linkedin时,你会看到数百种不同的东西。例如,您的个人资料属性,您的朋友列表,您的技能,为您推荐的群组,朋友建议,为您推荐的公司,谁查看过您的个人...

1054
来自专栏精讲JAVA

什么是Hadoop,怎样学习Hadoop(文尾有福利)

转自java知音 概述:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的...

18010
来自专栏PPV课数据科学社区

Hadoop并非完美:8个代替 HDFS的绝佳方案

HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,坦白说HDFS是一个...

3195
来自专栏IT派

大数据之Hadoop vs. Spark,如何取舍?

Hadoop在大数据领域享有多年垄断权,随着该领域开始出现新生力量,其统治地位正在逐渐下滑。年初的调查中,Hadoop被列为2018年大数据领域的“渐冻”趋势之...

3438
来自专栏CDA数据分析师

别再比较Hadoop和Spark了,那不是设计人员的初衷

对Hadoop与Spark孰优孰劣这个问题,最准确的观点就是,设计人员旨在让Hadoop和Spark在同一个团队里面协同运行。 直接比较Hadoop和Spark...

1908

扫描关注云+社区