首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >pyspark dataframe、groupby和列的方差计算

pyspark dataframe、groupby和列的方差计算
EN

Stack Overflow用户
提问于 2015-08-12 17:10:11
回答 2查看 13.3K关注 0票数 5

我想按pyspark数据帧分组,并计算特定列的方差。对于一般人来说,这很容易,可以这样做

代码语言:javascript
复制
from pyspark.sql import functions as func
AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect()

然而,对于方差,函数子模块中似乎没有任何聚合函数(我也想知道为什么,因为这是一个相当常见的操作)。

EN

回答 2

Stack Overflow用户

发布于 2015-08-12 21:40:13

您可以做的是将数据帧转换为RDD对象,然后使用为RDDs提供的方差函数。

代码语言:javascript
复制
df1 = df.groupby('country').agg(func.avg('clicks').alias('avg_clicks'))
rdd = df1.rdd
rdd.variance()
票数 3
EN

Stack Overflow用户

发布于 2017-03-14 18:44:39

由于标准差是方差的平方根,因此纯PySpark数据帧解决方案为:

代码语言:javascript
复制
df = sc.parallelize(((.1, 2.0), (.3, .2))).toDF()
df.show()
varianceDF = df.select(stddev('_1') * stddev('_1'))
varianceDF.show()
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31960750

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档