受到R语言和Python中数据框架的启发, Spark中的DataFrames公开了一个类似当前数据科学家已经熟悉的单节点数据工具的API. 我们知道, 统计是日常数据科学的重要组成部分....Out[6]: 1.0
在上面的例子中, id列与自身完全相关, 而两个随机生成的列则具有较低的相关值..
4.交叉表(列联表)
交叉表提供了一组变量的频率分布表....列联表是统计学中的一个强大的工具, 用于观察变量的统计显着性(或独立性). 在Spark 1.4中, 用户将能够将DataFrame的两列进行交叉以获得在这些列中观察到的不同对的计数....5.出现次数多的项目
找出每列中哪些项目频繁出现, 这对理解数据集非常有用. 在Spark 1.4中, 用户将能够使用DataFrame找到一组列的频繁项目....Python, Scala和Java中提供, 在Spark 1.4中也同样会提供, 此版本将在未来几天发布.