腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(8071)
视频
沙龙
1
回答
如
何在
PySpark
DataFrame
中
的
GroupBy
和
聚合
之后
传递
第三方
列
?
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我有一个Spark
DataFrame
,比方说df,我需要对它应用一个
GroupBy
col1,通过col2
的
最大值
聚合
,并
传递
相应
的
col3值(这与
groupBy
或
聚合
无关)。700| 12 || 2| 800| 15 |+-----+-----+-----+ 我可以很容易地执行
groupBy
和
聚合
,以
浏览 23
提问于2021-02-03
得票数 0
回答已采纳
1
回答
当sum()
列
时,我得到错误AttributeError:'
DataFrame
‘对象没有属性'sum’
sum
、
pyspark
、
word-count
我有这样
的
数据:|count| country|| 12| Ireland|+-----+--------+ AttributeError: '
DataFrame
' object has no attribute'sum' 我确实导入了from
pyspark
.sql
浏览 3
提问于2017-05-29
得票数 1
1
回答
在
pyspark
中
的
情况下
的
总和
pyspark
、
aggregate
我正在尝试将hql脚本转换为
pyspark
。我正在努力在
groupby
子句
之后
的
聚合
中
实现case when语句
的
总和。例如: SUM(f.when((col1 == 'ABC' | col2 == 'XYZ'), 1).otherwise(0))) 在
pysp
浏览 0
提问于2016-11-23
得票数 1
回答已采纳
2
回答
熊猫:有条件
的
分组计算
python
、
pandas
假设我有一个带有键
的
表(例如,customer )
和
两个数字
列
C1
和
C2。我希望按键(customer)对行进行分组,并在其列上运行一些
聚合
器,
如
sum
和
mean。在计算组
聚合
器
之后
,我想将结果分配回
DataFrame
中
的
每个客户行(因为每个行都添加了一些客户范围
的
特性)。我能看到我能做一些像 df['F1'] = df.
groupby
浏览 5
提问于2014-06-16
得票数 5
回答已采纳
1
回答
多列上
的
多
聚合
python
、
apache-spark
、
pyspark
我使用Python在
Pyspark
框架
中
。我试图使用
groupby
在不同
的
列上应用不同
的
聚合
。我有一个包含col1、col2、col3、col4
列
的
df,我想做这样
的
事情:df.
groupby
("col1").sum("col2", "col3").avg("col4") 但是我发现了一个错误:"/usr/l
浏览 4
提问于2019-09-27
得票数 0
回答已采纳
1
回答
使用countDistinct扭曲数据
pyspark
、
skew
我有一个包含3
列
的
PySpark
DataFrame
:‘客户’,‘产品’,‘日期’。我想运行一个
groupBy
操作: df.
groupBy
("product", "date").agg(F.countDistinct("client")) 所以我想统计一下每天购买产品
的
客户数量。这会导致巨大
的
数据倾斜(实际上,它会因为内存而导致错误)。我一直在学习腌制技术。据我所知,它可以与'sum
浏览 32
提问于2020-07-10
得票数 1
回答已采纳
1
回答
用火花放电写自定义
的
联非新议程
python
、
pandas
、
pyspark
、
user-defined-functions
我需要编写一个自定义
的
pySpark
,我遇到了这个例子。在类似的行
中
,
如
线程
的
最后一部分所示,我提出了以下函数 StructField("key([[gr]+[x]+[y]+[w]+[z]+[p]])
如
代码所示,我希望创建一个定制<e
浏览 1
提问于2019-04-04
得票数 1
1
回答
Parquet文件
中
groupby
的
最佳实践
python
、
pyspark
、
parquet
、
dask
为了生成一个count
聚合
,我们需要对几个
列
进行分组。我们目前
的
战略是: 读取Parquet文件(Dask或
pyspark
),并在
dataframe
的
索引上运行
groupby
。对于Parquet文件上高效
的</e
浏览 2
提问于2017-07-09
得票数 3
2
回答
Pyspark
将
列
列表放入
聚合
函数
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我有一个关于
Pyspark
中
的
udf
的
问题
和
一个具体
的
案例。我正在尝试创建一个简单
的
、可重用
的
函数来
聚合
不同级别
和
组上
的
值。输入应为: 现有数据帧 group by
的
变量(单列或列表) 要
聚合
的
变量(同上) 要应用
的
函数(可以是一个特定
的
函数,也可以是它们
的
列表)。我保持简单
的</em
浏览 60
提问于2020-11-26
得票数 0
回答已采纳
3
回答
将
pyspark
groupedData对象转换为spark
Dataframe
pyspark-sql
我必须在
pyspark
数据帧上进行2级分组。我
的
试探性
的
:grouped_df.
groupby
(["C"]).count()'GroupedData' object has no attribute '
groupby
' 我想我应该首先将分组
的
对象转换为<e
浏览 2
提问于2017-10-18
得票数 7
回答已采纳
2
回答
对
dataframe
中
的
一
列
求和,并以int形式返回结果
python
、
apache-spark
、
pyspark
我有一个包含一
列
数字(数量)
的
pyspark
数据帧。我需要对该
列
(Amount)求和,然后将结果作为一个python变量
中
的
int返回。数据集如下所示:1/1/2013,U2_P1,p@c.com,100,P_P 按总和进行日期分组
和
聚合
。
groupby
_revenue = df.
groupby
(['date']).sum
浏览 2
提问于2018-09-20
得票数 1
1
回答
与单独运行相比,具有多个
聚合
的
吡火花旋转数据要长/冻结得多。
apache-spark
、
pyspark
、
pivot
该命令看起来如下:df_aggregate_and_pivot = df_
groupby
.pivot('day').agg(*aggs)df_
grou
浏览 1
提问于2021-01-28
得票数 1
1
回答
Microsoft Spark
聚合
方法
c#
、
.net
、
apache-spark
我正在使用Microsoft.Spark Spark API并将
GroupBy
应用于
DataFrame
对象。我想在分组后将Agg应用于多个
列
。在
pyspark
中
,我会用下面这样
的
东西来表达我想要实现
的
目标 new_df = df.
groupBy
("customer_id") func.mean("a").alias使用.NET应用程序接口,我已经设置了
DataFrame</e
浏览 18
提问于2021-10-01
得票数 0
回答已采纳
2
回答
将‘`skipna`’参数
传递
给‘`agg`’
python
、
pandas
、
dataframe
、
numpy
、
aggregate
当我在一个skipna=False上使用agg方法时,我想设置
DataFrame
。import pandas as pddf = pd.
DataFrame
({"A": [1, 2], "B":np.nan, np.nan], "C": [0, 0]}) # th
浏览 8
提问于2022-09-07
得票数 4
1
回答
熊猫群:如何计算占总数
的
百分比?
python
、
pandas
如何计算在
groupby
中
显示总数%
的
列
import numpy as npdf= pd.
DataFrame
(np.random.randint(5,8,(10,4)), columns=['a','b','c','d']) g = df.
浏览 2
提问于2017-10-12
得票数 2
回答已采纳
1
回答
PySpark
相当于熊猫
的
群体分类?
python
、
apache-spark
、
pyspark
、
group-by
、
grouping
在Pandas上,我们可以按一个分类系列进行分组,然后在
聚合
时,它会显示所有的类别,不管它是否包含任何记录。import pandas as pd cuts = pd.cut(df.Age, bins=[0, 11, 30, 60]) df.Age.
groupby
(cuts).agg(mean="mean", occurrences="size")
浏览 13
提问于2022-10-24
得票数 1
回答已采纳
1
回答
聚合
一
列
,但在选择
中
显示所有
列
apache-spark
、
pyspark
、
apache-spark-sql
在按日期
列
分组行时,我尝试显示
列
的
最大值。所以我尝试了这段代码 .
groupBy
('DATE')\但是产出看起来是这样
的
:| DATE|max(CLOSE)||1987-05-08|51.4
浏览 2
提问于2020-07-24
得票数 2
回答已采纳
2
回答
使用字典应用
聚合
时
的
Pyspark
列名别名
python
、
apache-spark
、
pyspark
我正在将
聚合
函数应用于
pyspark
中
的
数据框架
中
。我使用字典
传递
列名
和
聚合
函数。df.
groupBy
(column_name).agg({"column_name":"sum"}) 现在,我想对使用
聚合
方法生成
的
这个
列
应用一个别名。有办法吗?我使用字典方法
的
原因是
聚合
将根据输入参数动态应用。所以基本上就像
浏览 16
提问于2022-02-23
得票数 2
1
回答
使一个函数成为.agg()在
groupBy
语句中
的
组件,将生成一个AssertionError
python
、
pandas
、
apache-spark
= spark.createDataFrame(spark_
dataframe
)我按ID对数据进行分组,并希望将应用于函数
中
的
聚合
。因为在许多不同
的
应用程序
中
应用了相同
的
聚合
,所以这在代码
中
创建了一个模块化。汇总
的
功能: s
浏览 3
提问于2020-07-01
得票数 1
回答已采纳
8
回答
为
PySpark
DataFrame
聚合
重命名列
dataframe
、
apache-spark
、
pyspark
、
apache-spark-sql
我正在用
PySpark
DataFrames分析一些数据。假设我有一个正在
聚合
的
DataFrame
df: .agg({"money":"sum"}))group137461285853C 271179590646
聚合
工作得很好,
浏览 29
提问于2015-05-01
得票数 102
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
一文读懂PySpark数据框
Python之数据聚合与分组运算
一文读懂 PySpark 数据框
在Pandas中通过时间频率来汇总数据的三种常用方法
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券