在这篇博文中, 我们将介绍一些重要的功能, 其中包括:
随机数据生成功能
摘要和描述性统计功能
样本协方差和相关性功能
交叉表(又名列联表)
频繁项目(注: 即多次出现的项目)
数学函数
我们在例子中使用...In [1]: from pyspark.sql.functions import rand, randn
In [2]: # 一个略微不同的方式来生成两个随机的数列
In [3]: df = sqlContext.range..., 你当然也可以使用DataFrame上的常规选择功能来控制描述性统计信息列表和应用的列:
In [5]: from pyspark.sql.functions import mean, min, max...列联表是统计学中的一个强大的工具, 用于观察变量的统计显着性(或独立性). 在Spark 1.4中, 用户将能够将DataFrame的两列进行交叉以获得在这些列中观察到的不同对的计数....也就是说, 不同的names和items的数量不能太大. 试想一下, 如果items包含10亿个不同的项目:你将如何适应你的屏幕上一大堆条目的表?