在这篇博文中, 我们将介绍一些重要的功能, 其中包括:
随机数据生成功能
摘要和描述性统计功能
样本协方差和相关性功能
交叉表(又名列联表)
频繁项目(注: 即多次出现的项目)
数学函数
我们在例子中使用...可以使用describe函数来返回一个DataFrame, 其中会包含非空项目数, 平均值, 标准偏差以及每个数字列的最小值和最大值等信息...., 那么你也可以在列的一个子集上应用describe函数:
In [4]: df.describe('uniform', 'normal').show()
+-------+--------------..., 你当然也可以使用DataFrame上的常规选择功能来控制描述性统计信息列表和应用的列:
In [5]: from pyspark.sql.functions import mean, min, max...我们已经实现了Karp等人提出的单通道算法. 这是一种快速的近似算法, 总是返回出现在用户指定的最小比例的行中的所有频繁项目. 请注意, 结果可能包含错误信息, 即出现了不频繁出现的项目.