Spark发布1.3.0版本

3月13日,Spark 1.3.0版本与我们如约而至。这是Spark 1.X发布计划中的第四次发布,距离1.2版本发布约三个月时间。据Spark官方网站报道,此次发布是有史以来最大的一次发布,共有174位开发者为代码库做出贡献,提交次数超过1000次。

此次版本发布的最大亮点是新引入的DataFrame API。对于结构型的DataSet,它提供了更方便更强大的操作运算。事实上,我们可以简单地将DataFrame看做是对RDD的一个封装或者增强,使得Spark能够更好地应对诸如数据表、JSON数据等结构型数据样式(Schema),而不是传统意义上多数语言提供的集合数据结构。在一个数据分析平台中增加对DataFrame的支持,其实也是题中应有之义。诸如R语言、Python的数据分析包pandas都支持对Data Frame数据结构的支持。事实上,Spark DataFrame的设计灵感正是基于R与Pandas。

Databricks的博客在今年2月就已经介绍了Spark新的DataFrame API。文中提到了新的DataFrames API的使用方法,支持的数据格式与数据源,对机器学习的支持以及性能测评等。文中还提到与性能相关的实现机制:

与R/Python中data frame使用的eager方式不同,Spark中的DataFrames执行会被查询优化器自动优化。在DataFrame上的计算开始之前,Catalyst优化器会编译操作,这将把DataFrame构建成物理计划来执行。

由于Catalyst进行了两种类型的优化:逻辑优化与物理优化(生成JVM bytecode),因而相较于RDD而言,DataFrame有了更好的性能表现。性能对比如下图所示:

Spark的官方网站已经给出了DataFrame API的编程指导。DataFrame的Entry Point为Spark SQL的SQLContext,它可以通过SparkContext对象来创建。如果希望DataFrame与RDD互操作,则可以在Scala中引入隐式装换,完成将RDD转换为DataFrame。由于DataFrame提供了许多Spark SQL支持的功能,例如select操作,因此,它被放到Spark SQL组件中,而不是作为另一种RDD放到Spark Core中。

在Spark 1.3.0版本中,除了DataFrame之外,还值得关注的一点是Spark SQL成为了正式版本,这意味着它将更加的稳定,更加的全面。或许,是时候从HIVE转向Spark SQL了。根据我们的项目经验,代码库从HIVE向Spark SQL的迁移还是比较容易的,毕竟二者的SQL语法非常接近。官方文档也宣称它完全向后兼容HiveQL方言。当然,如果你还在使用Shark,就更有必要将其升级到Spark SQL。

对于其他组件,如Spark ML/MLlib、Spark Streaming和GraphX,最新版本都有各种程度的增强。由于目前Spark的版本发布是定期的三个月周期发布,因此除了每次发布版本的里程碑特性外,其余特性可能都是对现有组件的增强,尤其可能是增加新的算法支持(如机器学习中对LDA的支持)或者对第三方工具的支持(如Streaming中对Kafka的Python支持)。Spark社区还会在发布版本之前对将要发布的特性进行投票,这或许是非常好的开源产品管理实践。

若需了解最新发布的Spark 1.3.0的更多内容,可以访问Spark官方网站的发布公告。

原文发布于微信公众号 - 逸言(YiYan_OneWord)

原文发表时间:2015-03-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏跟着阿笨一起玩NET

c#实现打印功能

2812
来自专栏一个会写诗的程序员的博客

Spring Reactor 项目核心库Reactor Core

Non-Blocking Reactive Streams Foundation for the JVM both implementing a Reactiv...

2192
来自专栏我和未来有约会

Kit 3D 更新

Kit3D is a 3D graphics engine written for Microsoft Silverlight. Kit3D was inita...

2586
来自专栏张善友的专栏

Silverlight + Model-View-ViewModel (MVVM)

     早在2005年,John Gossman写了一篇关于Model-View-ViewModel模式的博文,这种模式被他所在的微软的项目组用来创建Expr...

2988
来自专栏pangguoming

Spring Boot集成JasperReports生成PDF文档

由于工作需要,要实现后端根据模板动态填充数据生成PDF文档,通过技术选型,使用Ireport5.6来设计模板,结合JasperReports5.6工具库来调用渲...

1.2K7
来自专栏一个爱瞎折腾的程序猿

sqlserver使用存储过程跟踪SQL

USE [master] GO /****** Object: StoredProcedure [dbo].[sp_perfworkload_trace_s...

2070
来自专栏C#

DotNet加密方式解析--非对称加密

    新年新气象,也希望新年可以挣大钱。不管今年年底会不会跟去年一样,满怀抱负却又壮志未酬。(不过没事,我已为各位卜上一卦,卦象显示各位都能挣钱...)...

4928
来自专栏Ceph对象存储方案

Luminous版本PG 分布调优

Luminous版本开始新增的balancer模块在PG分布优化方面效果非常明显,操作也非常简便,强烈推荐各位在集群上线之前进行这一操作,能够极大的提升整个集群...

3195
来自专栏hbbliyong

WPF Trigger for IsSelected in a DataTemplate for ListBox items

<DataTemplate DataType="{x:Type vm:HeaderSlugViewModel}"> <vw:HeaderSlug...

4064
来自专栏魂祭心

原 canvas绘制clock

4164

扫码关注云+社区