腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
Pyspark
:
在
groupby
之后
计算
min
和
avg
的
错误
结果
、
、
我有一个包含列id (date_from)
和
price
的
Spark数据帧。为此,我已经尝试过:aggregate = ["price"]exprs = [f(col(c)) for f in funsfor c in aggregate]还有: df = df.
groupby<
浏览 17
提问于2021-03-10
得票数 0
回答已采纳
1
回答
如何
计算
火花放电场
的
不同平均值?
、
、
我必须
计算
3个字段,max、me
和
avg
,但是
avg
需要与sql中
的
avg
(distinct(vl))等效,如何在一个
pyspark
中实现这一点?df = df1.
groupBy
("cd","name")\
min
(col("tx_vl&
浏览 1
提问于2022-09-01
得票数 0
回答已采纳
2
回答
分组spark数据帧上
的
最大聚合返回
错误
的
值
、
、
我有一个包含2列(CPID
和
PluginDuration)
的
spark数据帧。我需要找到数据帧中每个CPID
的
最大pluginDuration和平均pluginDuration。AN04773| 13.03444444||AN04773| 20.50027778| +-------+--------------+ 当我
在
dataframe
的
PID列上执行
groupBy
以查找如下所示
的
max
和
<
浏览 47
提问于2021-11-01
得票数 1
回答已采纳
1
回答
Pyspark
Groupby
创建列
、
、
、
在
Pyspark
中,我需要按ID分组并创建四个新列(
min
,max,std,ave)。("Date").cast('long')).rowsBetween(-4, 0)) .withColumn('hr1_ave', F.
avg
("rpm(w))\ .withColumn('hr1_max', F.max("rpm").over
浏览 23
提问于2020-09-22
得票数 1
回答已采纳
1
回答
GroupedData上
的
方差
计算
、
、
、
我试图
在
GroupedData 2中
计算
PySpark
对象
的
方差,而在中,我没有看到任何用于
计算
方差
的
内置函数。from
pyspar
浏览 3
提问于2017-10-21
得票数 0
回答已采纳
4
回答
在
PySpark
中对GroupedData应用UDF(带功能python示例)
、
、
、
、
我有一段python代码,它在本地运行在一个pandas数据帧中: .
groupby
('A').apply(lambda x: myFunction(zip(x.B, x.C), x.name))sparkDF .agg(my
浏览 1
提问于2016-10-13
得票数 43
2
回答
如何将两个或多个列合并为一个列?
、
、
我有一个流数据,我想在一些列上
计算
min
和
avg
。|20 | 51 |我想我应该使用Scala元组来实现它,但这似乎行不通: val res = List("1","2").map(name => (
m
浏览 0
提问于2019-01-28
得票数 1
回答已采纳
1
回答
Pyspark
计算
分组表上
的
字段
、
、
I对行程进行分组,然后
计算
出平均行程比率。trip rate是通过获取具有相同起始
和
结束is
的
所有行程
计算
得出
的
,
在
我
的
示例中,startID 1
和
endID 3总共有2次行程,这两次行程
的
平均trip_distance为2.5,平均total_amountfrom
pyspark
.shell import spark from
pyspark
.sql.functions import
av
浏览 153
提问于2020-10-06
得票数 1
回答已采纳
2
回答
AssertionError-
计算
分组
的
实际值
和
预测值之间
的
均方根-
Pyspark
:所有表达式都应为
、
、
、
、
我有一个函数可以
计算
整个数据帧
的
preds
和
actuals
的
RMSE: def calculate_rmse(df, actual_column, prediction_column): "RMSE", RMSE(F.col(actual_column), F.col(prediction_column)) rmse = df.select(F.
avg
("RMSE") ** 0.5).collect()
浏览 33
提问于2020-04-13
得票数 1
回答已采纳
2
回答
熊猫群+
在
栏上应用
的
火花放电当量
、
、
我有一个星星之火DataFrame,我想在
groupby
之后
为一个变量
计算
唯一值
的
数量。
在
熊猫中,我可以从以下网址获得:df.
groupby
('UserName').apply(lambda x: x['Server'].nunique()) 如果df是一个
pyspark
,我如何才能得到相同
的
结果
浏览 4
提问于2017-11-08
得票数 4
回答已采纳
1
回答
.mean()
和
.
avg
()方法有什么区别?
、
、
、
、
目前,我正在与
PySpark
一起分析一些数据。我有一个CSV文件,里面有工资数据。我想知道哪份工作
的
薪水最好。要做到这一点,我需要中位数(),因为我想知道平均值。
groupBy
的
方法有:agg,
avg
,count,max,mean,
min
,pivot,sum。当我尝试.mean()方法时,如下所示: mean_pay_data = reduced_data.
groupBy
("JOB_TITLE").mean("REGULAR_PAY&quo
浏览 7
提问于2022-10-11
得票数 -1
回答已采纳
3
回答
从数据帧中获取价值
、
、
、
在
Scala中,我可以使用get(#)或getAs[Type](#)从数据帧中获取值。
在
pyspark
中我应该怎么做呢?我有一个两列
的
DataFrame:item(string)
和
salesNum(integers)。我做了一个
groupby
和
mean来获得这些数字
的
平均值,如下所示:而且它是有效
的
。现在我
浏览 2
提问于2016-06-28
得票数 21
回答已采纳
3
回答
如何使用MapReduce
计算
数据集中每列
的
最小最大值和平均值?
、
、
假设我有一个大
的
数据集,下面是它
的
缩写部分Healthy,4.5044,0.7443,6.34,1.9052Patient,5.7422,0.8862,5.1013,0.9402我知道最简单
的
方法是
在
pyspark
中使用df.describe().show(),但是如何在
pys
浏览 7
提问于2022-01-15
得票数 0
5
回答
星星之火数据帧
的
同一列上
的
多个聚合操作
、
、
我有三个字符串类型数组,包含以下信息: 操作数组:包含我要执行
的
聚合操作。Spark数据帧提供了一个agg(),您可以在其中传递一个Map 作为输入,但是我希望对数据
的
同一列执行不同
的
聚合操作。对于如何做到这一点,有什么建议吗?
浏览 8
提问于2016-01-22
得票数 40
回答已采纳
1
回答
多列上
的
多聚合
、
、
我使用Python
在
Pyspark
框架中。我试图使用
groupby
在
不同
的
列上应用不同
的
聚合。我有一个包含col1、col2、col3、col4列
的
df,我想做这样
的
事情:df.
groupby
("col1").sum("col2", "col3").
avg
("col4") 但是我发现了一个
错误
:"/u
浏览 4
提问于2019-09-27
得票数 0
回答已采纳
1
回答
聚合数据帧操作后
的
Pyspark
冻结
、
、
我使用
的
是Spark 1.5.2
和
Python 2.7.5。我
在
pyspark
repl中运行了以下代码:ctx = SQLContext(sc) funs = [(count,"total"),(
avg
,"cr")] aggregate = ["conv
浏览 16
提问于2017-02-06
得票数 0
回答已采纳
1
回答
在
pySpark
数据帧上聚合
的
多个条件
、
、
09/2016||MLA-605502281|02/09/2016|我想按sku分组,然后
计算
最小日期
和
最大日期如果我这样做: .agg({'date': '
min
', 'date':'max'}) \
浏览 0
提问于2016-10-27
得票数 20
回答已采纳
1
回答
在
pyspark
dataframe中检索最大值时遇到问题
、
、
、
、
在
我通过使用窗口
和
对一组列进行分区来
计算
pyspark
dataframe中每行5行内
的
平均数量
之后
from
pyspark
.sql import functions as Fconsecutive_df = prep_df.withColumn('aveg', F.
avg
(prep_df['q
浏览 14
提问于2020-06-19
得票数 0
回答已采纳
1
回答
将所有聚合放在单个
groupBy
中还是分开进行?
、
、
、
、
我需要在我
的
PySpark
代码中对一个大型数据集进行大量
的
聚合(大约9-10个)。我可以通过两种方式来实现:df.
groupBy
(col1, col2).agg({"col3":"sum", "col4":"
avg
", "col5":"
min
", "col6":"sum", "col7":&q
浏览 0
提问于2018-01-25
得票数 2
2
回答
GroupBy
在
PySpark
中
的
优化
、
、
、
、
我有一个数据集,
在
该数据集中,我将按多个变量分组,使用
PySpark
计算
每个用户ID
的
最大值和平均值
的
中位数,如下所示:df = spark.read.parquet").agg(F.max("value")) F.max("val
浏览 21
提问于2022-01-10
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券