腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(8071)
视频
沙龙
1
回答
如
何在
PySpark
DataFrame
中
的
GroupBy
和
聚合
之后
传递
第三方
列
?
、
、
、
我有一个Spark
DataFrame
,比方说df,我需要对它应用一个
GroupBy
col1,通过col2
的
最大值
聚合
,并
传递
相应
的
col3值(这与
groupBy
或
聚合
无关)。700| 12 || 2| 800| 15 |+-----+-----+-----+ 我可以很容易地执行
groupBy
和
聚合
,以
浏览 23
提问于2021-02-03
得票数 0
回答已采纳
1
回答
当sum()
列
时,我得到错误AttributeError:'
DataFrame
‘对象没有属性'sum’
、
、
我有这样
的
数据:|count| country|| 12| Ireland|+-----+--------+ AttributeError: '
DataFrame
' object has no attribute'sum' 我确实导入了from
pyspark
.sql
浏览 3
提问于2017-05-29
得票数 1
1
回答
在
pyspark
中
的
情况下
的
总和
、
我正在尝试将hql脚本转换为
pyspark
。我正在努力在
groupby
子句
之后
的
聚合
中
实现case when语句
的
总和。例如: SUM(f.when((col1 == 'ABC' | col2 == 'XYZ'), 1).otherwise(0))) 在
pysp
浏览 0
提问于2016-11-23
得票数 1
回答已采纳
2
回答
熊猫:有条件
的
分组计算
、
假设我有一个带有键
的
表(例如,customer )
和
两个数字
列
C1
和
C2。我希望按键(customer)对行进行分组,并在其列上运行一些
聚合
器,
如
sum
和
mean。在计算组
聚合
器
之后
,我想将结果分配回
DataFrame
中
的
每个客户行(因为每个行都添加了一些客户范围
的
特性)。我能看到我能做一些像 df['F1'] = df.
groupby
浏览 5
提问于2014-06-16
得票数 5
回答已采纳
1
回答
多列上
的
多
聚合
、
、
我使用Python在
Pyspark
框架
中
。我试图使用
groupby
在不同
的
列上应用不同
的
聚合
。我有一个包含col1、col2、col3、col4
列
的
df,我想做这样
的
事情:df.
groupby
("col1").sum("col2", "col3").avg("col4") 但是我发现了一个错误:"/usr/l
浏览 4
提问于2019-09-27
得票数 0
回答已采纳
1
回答
使用countDistinct扭曲数据
、
我有一个包含3
列
的
PySpark
DataFrame
:‘客户’,‘产品’,‘日期’。我想运行一个
groupBy
操作: df.
groupBy
("product", "date").agg(F.countDistinct("client")) 所以我想统计一下每天购买产品
的
客户数量。这会导致巨大
的
数据倾斜(实际上,它会因为内存而导致错误)。我一直在学习腌制技术。据我所知,它可以与'sum
浏览 32
提问于2020-07-10
得票数 1
回答已采纳
1
回答
用火花放电写自定义
的
联非新议程
、
、
、
我需要编写一个自定义
的
pySpark
,我遇到了这个例子。在类似的行
中
,
如
线程
的
最后一部分所示,我提出了以下函数 StructField("key([[gr]+[x]+[y]+[w]+[z]+[p]])
如
代码所示,我希望创建一个定制<e
浏览 1
提问于2019-04-04
得票数 1
1
回答
Parquet文件
中
groupby
的
最佳实践
、
、
、
为了生成一个count
聚合
,我们需要对几个
列
进行分组。我们目前
的
战略是: 读取Parquet文件(Dask或
pyspark
),并在
dataframe
的
索引上运行
groupby
。对于Parquet文件上高效
的</e
浏览 2
提问于2017-07-09
得票数 3
2
回答
Pyspark
将
列
列表放入
聚合
函数
、
、
、
我有一个关于
Pyspark
中
的
udf
的
问题
和
一个具体
的
案例。我正在尝试创建一个简单
的
、可重用
的
函数来
聚合
不同级别
和
组上
的
值。输入应为: 现有数据帧 group by
的
变量(单列或列表) 要
聚合
的
变量(同上) 要应用
的
函数(可以是一个特定
的
函数,也可以是它们
的
列表)。我保持简单
的</em
浏览 60
提问于2020-11-26
得票数 0
回答已采纳
3
回答
将
pyspark
groupedData对象转换为spark
Dataframe
我必须在
pyspark
数据帧上进行2级分组。我
的
试探性
的
:grouped_df.
groupby
(["C"]).count()'GroupedData' object has no attribute '
groupby
' 我想我应该首先将分组
的
对象转换为<e
浏览 2
提问于2017-10-18
得票数 7
回答已采纳
2
回答
对
dataframe
中
的
一
列
求和,并以int形式返回结果
、
、
我有一个包含一
列
数字(数量)
的
pyspark
数据帧。我需要对该
列
(Amount)求和,然后将结果作为一个python变量
中
的
int返回。数据集如下所示:1/1/2013,U2_P1,p@c.com,100,P_P 按总和进行日期分组
和
聚合
。
groupby
_revenue = df.
groupby
(['date']).sum
浏览 2
提问于2018-09-20
得票数 1
1
回答
与单独运行相比,具有多个
聚合
的
吡火花旋转数据要长/冻结得多。
、
、
该命令看起来如下:df_aggregate_and_pivot = df_
groupby
.pivot('day').agg(*aggs)df_
grou
浏览 1
提问于2021-01-28
得票数 1
1
回答
Microsoft Spark
聚合
方法
、
、
我正在使用Microsoft.Spark Spark API并将
GroupBy
应用于
DataFrame
对象。我想在分组后将Agg应用于多个
列
。在
pyspark
中
,我会用下面这样
的
东西来表达我想要实现
的
目标 new_df = df.
groupBy
("customer_id") func.mean("a").alias使用.NET应用程序接口,我已经设置了
DataFrame</e
浏览 18
提问于2021-10-01
得票数 0
回答已采纳
2
回答
将‘`skipna`’参数
传递
给‘`agg`’
、
、
、
、
当我在一个skipna=False上使用agg方法时,我想设置
DataFrame
。import pandas as pddf = pd.
DataFrame
({"A": [1, 2], "B":np.nan, np.nan], "C": [0, 0]}) # th
浏览 8
提问于2022-09-07
得票数 4
1
回答
熊猫群:如何计算占总数
的
百分比?
、
如何计算在
groupby
中
显示总数%
的
列
import numpy as npdf= pd.
DataFrame
(np.random.randint(5,8,(10,4)), columns=['a','b','c','d']) g = df.
浏览 2
提问于2017-10-12
得票数 2
回答已采纳
1
回答
PySpark
相当于熊猫
的
群体分类?
、
、
、
、
在Pandas上,我们可以按一个分类系列进行分组,然后在
聚合
时,它会显示所有的类别,不管它是否包含任何记录。import pandas as pd cuts = pd.cut(df.Age, bins=[0, 11, 30, 60]) df.Age.
groupby
(cuts).agg(mean="mean", occurrences="size")
浏览 13
提问于2022-10-24
得票数 1
回答已采纳
1
回答
聚合
一
列
,但在选择
中
显示所有
列
、
、
在按日期
列
分组行时,我尝试显示
列
的
最大值。所以我尝试了这段代码 .
groupBy
('DATE')\但是产出看起来是这样
的
:| DATE|max(CLOSE)||1987-05-08|51.4
浏览 2
提问于2020-07-24
得票数 2
回答已采纳
2
回答
使用字典应用
聚合
时
的
Pyspark
列名别名
、
、
我正在将
聚合
函数应用于
pyspark
中
的
数据框架
中
。我使用字典
传递
列名
和
聚合
函数。df.
groupBy
(column_name).agg({"column_name":"sum"}) 现在,我想对使用
聚合
方法生成
的
这个
列
应用一个别名。有办法吗?我使用字典方法
的
原因是
聚合
将根据输入参数动态应用。所以基本上就像
浏览 16
提问于2022-02-23
得票数 2
1
回答
使一个函数成为.agg()在
groupBy
语句中
的
组件,将生成一个AssertionError
、
、
= spark.createDataFrame(spark_
dataframe
)我按ID对数据进行分组,并希望将应用于函数
中
的
聚合
。因为在许多不同
的
应用程序
中
应用了相同
的
聚合
,所以这在代码
中
创建了一个模块化。汇总
的
功能: s
浏览 3
提问于2020-07-01
得票数 1
回答已采纳
8
回答
为
PySpark
DataFrame
聚合
重命名列
、
、
、
我正在用
PySpark
DataFrames分析一些数据。假设我有一个正在
聚合
的
DataFrame
df: .agg({"money":"sum"}))group137461285853C 271179590646
聚合
工作得很好,
浏览 29
提问于2015-05-01
得票数 102
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券