在这篇博文中, 我们将介绍一些重要的功能, 其中包括:
随机数据生成功能
摘要和描述性统计功能
样本协方差和相关性功能
交叉表(又名列联表)
频繁项目(注: 即多次出现的项目)
数学函数
我们在例子中使用...可以使用describe函数来返回一个DataFrame, 其中会包含非空项目数, 平均值, 标准偏差以及每个数字列的最小值和最大值等信息....5.出现次数多的项目
找出每列中哪些项目频繁出现, 这对理解数据集非常有用. 在Spark 1.4中, 用户将能够使用DataFrame找到一组列的频繁项目....利用MLlib中现有的统计软件包, 可以支持管道(pipeline), 斯皮尔曼(Spearman)相关性, 排名以及协方差和相关性的聚合函数中的特征选择功能....在博客文章的最后, 我们还要感谢Davies Liu, Adrian Wang和Spark社区的其他成员实现这些功能.