文章/答案/技术大牛

发布

社区首页 >问答首页 >pyspark dataframe、groupby和列的方差计算

问pyspark dataframe、groupby和列的方差计算
EN

Stack Overflow用户

提问于 2015-08-12 17:10:11

回答 2查看 13.3K关注 0票数 5

我想按pyspark数据帧分组，并计算特定列的方差。对于一般人来说，这很容易，可以这样做

from pyspark.sql import functions as func
AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect()

然而，对于方差，函数子模块中似乎没有任何聚合函数(我也想知道为什么，因为这是一个相当常见的操作)。

pyspark

spark-dataframe

pyspark-sql

python

回答 2

Stack Overflow用户

发布于 2015-08-12 21:40:13

您可以做的是将数据帧转换为RDD对象，然后使用为RDDs提供的方差函数。

df1 = df.groupby('country').agg(func.avg('clicks').alias('avg_clicks'))
rdd = df1.rdd
rdd.variance()

票数 3

Stack Overflow用户

发布于 2017-03-14 18:44:39

由于标准差是方差的平方根，因此纯PySpark数据帧解决方案为：

df = sc.parallelize(((.1, 2.0), (.3, .2))).toDF()
df.show()
varianceDF = df.select(stddev('_1') * stddev('_1'))
varianceDF.show()

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/31960750

复制

相似问题

问pyspark dataframe、groupby和列的方差计算
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问pyspark dataframe、groupby和列的方差计算EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问pyspark dataframe、groupby和列的方差计算
EN