在这篇博文中, 我们将介绍一些重要的功能, 其中包括:
随机数据生成功能
摘要和描述性统计功能
样本协方差和相关性功能
交叉表(又名列联表)
频繁项目(注: 即多次出现的项目)
数学函数
我们在例子中使用...不过, Scala和Java也有类似的API.
1.随机数据生成
随机数据生成对于测试现有算法和实现随机算法(如随机投影)非常有用....列联表是统计学中的一个强大的工具, 用于观察变量的统计显着性(或独立性). 在Spark 1.4中, 用户将能够将DataFrame的两列进行交叉以获得在这些列中观察到的不同对的计数....5.出现次数多的项目
找出每列中哪些项目频繁出现, 这对理解数据集非常有用. 在Spark 1.4中, 用户将能够使用DataFrame找到一组列的频繁项目....对于采用两个参数作为输入的函数, 例如pow(x, y)(计算x的y次幂), hypot(x, y)(计算直角三角形的斜边长), 两个独立的列或者列的组合都可以作为输入参数.