Spark 1.4为DataFrame新增的统计与数学函数

Spark一直都在快速地更新中,性能越来越快,功能越来越强大。我们既可以参与其中,也可以乐享其成。

目前,Spark 1.4版本在社区已经进入投票阶段,在Github上也提供了1.4的分支版本。最近,Databricks的工程师撰写了博客,介绍了Spark 1.4为DataFrame新增的统计与数学函数。这篇博客介绍的函数主要包括:

  • 随机数据生成(Random Data Generation)
  • 概要与描述性统计(Summary and descriptive statistics)
  • 协方差与相关性(Sample covariance and correlation)
  • 交叉列表(Cross tabulation)
  • 频率项(Frequent items)
  • 数学函数(Mathematical functions)

随机数据生成(Random Data Generation)主要是为测试数据提供方便快捷的接口,如range、rand和randn。rand函数提供均匀正态分布,而randn则提供标准正态分布。在调用这些函数时,还可以指定列的别名,以方便我们对这些数据进行测试。

概要与描述性统计(Summary and Descriptive Statistics)包含了计数、平均值、标准差、最大值、最小值运算。只需要针对DataFrame调用describe函数即可:

from pyspark.sql.functions import rand, randn

df = sqlContext.range(0, 10).withColumn('uniform', rand(seed=10)).withColumn('normal', randn(seed=27))

df.describe().show()

可能的结果显示为(转换为表格类型):

交叉列表(Cross Tabulation)为一组变量提供了频率分布表,在统计学中被经常用到。例如在对租车行业的数据进行分析时,需要分析每个客户(name)租用不同品牌车辆(brand)的次数。此时,就可以直接调用crosstab函数。例如:

df.stat.crosstab("name", "brand").show()

但是需要注意的是,必须确保要进行交叉列表统计的列的基数不能太大。

为DataFrame新增加的数学函数都是我们在做数据分析中常常用到的,包括cos、sin、floor、ceil以及pow、hypot等。以上新特性都会在Spark 1.4版本中得到支持,并且支持Python、Scala和Java。在未来发布的版本中,DataBricks还将继续增强统计功能,并使得DataFrame可以更好地与Spark机器学习库MLlib集成,例如Spearman Correlation(斯皮尔曼相关)、针对协方差运算与相关性运算的聚合函数等。

原文发布于微信公众号 - 逸言(YiYan_OneWord)

原文发表时间:2015-06-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据派THU

放弃“for循环”,教你用这种算法 !(附代码)

原文标题:Why you should forget ‘for-loop’ for data science code and embrace vectoriz...

1986

基于Apache Spark机器学习的客户流失预测

流失预测是个重要的业务,通过预测哪些客户可能取消对服务的订阅来最大限度地减少客户流失。虽然最初在电信行业使用,但它已经成为银行,互联网服务提供商,...

6367
来自专栏大数据挖掘DT机器学习

用R解析Mahout用户推荐协同过滤算法(UserCF)

作者: 张丹(Conan), 程序员Java,R,PHP,Javascript http://blog.fens.me 前言 用R全面解析Mahout的基于用...

31512
来自专栏PPV课数据科学社区

如何用R语言对城管事件数据分析?

这次使用主成分分析主要目的并不是降维,而是分析城管数据中的事件类别之间是否存在关系,当然,城管事件类型有好几百,这里就只选取从去年九月到目前发生量前十的事件类别...

3338
来自专栏深度学习与数据挖掘实战

【今日热门&优秀资源】深度学习&Kaggle竞赛

633
来自专栏嵌入式程序猿

运算放大器使用必须遵循的六条军规

运算放大器是作为最通用的模拟器件,广泛用于信号变换调理、ADC采样前端、电源电路等场合中。虽然运放外围电路简单,不过在使用过程中还是有很多需要注意的地方。 1...

3386
来自专栏大数据挖掘DT机器学习

用R语言对城管事件数据分析

作者:夏尔康 https://ask.hellobi.com/blog/xiaerkang/3975 这次使用主成分分析主要目的并不是降维,而是分析城管数据中的...

3189
来自专栏华章科技

春招快到了,送你一份数据分析常见面试题

找了半年工作,面试了几个data science的职位,总结了一些常见的问题,在这儿抛砖引玉。

391
来自专栏about云

使用Spark MLlib给豆瓣用户推荐电影

问题导读: 1.常用的推荐算法有哪些? 2.推荐系统是什么样的流程? 3.从这个推荐系统我们能学到什么? 推荐算法就是利用用户的一些行为,通过一些数学算法,推测...

6027
来自专栏诸葛青云的专栏

计算位数最高达300位的两个非负整数的乘积,C语言编程实现

小编给大家推荐一个学习氛围超好的地方,C/C++交流企鹅裙:870963251!适合在校大学生,小白,想转行,想通过这个找工作的加入。裙里有大量学习资料,有大神...

1131

扫码关注云+社区