腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
:
在
groupBy
之后
删除
列
条件
中
的
行
、
这是我
的
输入数据帧:1 Y2 a3 Nid val 2 a 3 N 我想在val
中
同时包含Y和N
的
列
id上进行分组,然后
删除
val
列
包含"N“
的
行
。请帮我解决这个问题,因为我是
pyspark
的
初学者。
浏览 7
提问于2018-09-06
得票数 2
回答已采纳
1
回答
PySpark
-
删除
Groupby
之后
的
行
?
、
我
的
spark是3.0版图2是预期
的
输出。有人能帮我吗?
浏览 0
提问于2020-08-18
得票数 0
2
回答
如何
删除
所有重复
行
(忽略某些
列
)而不留下任何dupe对?
、
、
8 | 3258958304 |+----+-------+-------+--------------++----+-------+-------+-----------+| 5 | steve | 9 | 124324234 | +----+-------+---
浏览 1
提问于2018-06-19
得票数 1
回答已采纳
1
回答
PySpark
中
不同列上重复条目中基于
列
值
的
行
选择
、
、
、
、
我有一个
在
字段(
列
)上分组
的
PySpark
DataFrame,其目的是消除每个组
的
记录,这些记录具有另一个字段
的
特定值。因此,例如,表看起来就像'a' 1'a' 0这里我想要
的
是
删除
有一个重复
的
colA和colB为0
的
记录,这样就可以获得colA
浏览 3
提问于2016-03-09
得票数 0
回答已采纳
1
回答
Dataframe中新
列
的
PySpark
1.5组和
、
、
、
、
我试图使用
groupBy
和sum (使用
PySpark
1.5)
在
中
创建一个新
列
(“
PySpark
”)。我
的
数字
列
已被转换为长列或双列。用来形成
groupBy
的
列
是字符串和时间戳。我
的
代码如下 df= df.withColumn("newaggCol",(df.
groupBy
([df.strCol,df.tsCol]).sum(df.longC
浏览 2
提问于2016-03-07
得票数 2
回答已采纳
1
回答
Pyspark
:如何将
行
分组为N个组?
我
在
pyspark
脚本
中
执行df.
groupBy
().apply(),并希望创建一个自定义
列
,该
列
将我
的
所有
行
分组到N(尽可能均匀,所以
行
/n)组
中
。这就是为什么我可以确保每次脚本运行时发送到我
的
udf函数
的
组数。 我如何使用
pyspark
来做这件事?
浏览 32
提问于2020-07-21
得票数 0
回答已采纳
2
回答
为什么
groupBy
()比
pyspark
中
的
distinct()快得多?
当我用
groupBy
()替换spark数据帧上
的
distinct()时,我
在
我
的
pyspark
代码中看到了很大
的
性能改进。但是我不能理解背后
的
原因。整个意图是从数据帧
中
删除
行
级重复项。我尝试
在
谷歌上搜索
groupBy
()和distinct()
在
pyspark
中
的
实现,但没有找到。 有没有人能给我解释一下或者给我
浏览 0
提问于2018-09-11
得票数 6
1
回答
与另一
列
中
的
条件
匹配
的
列
中
的
Pandas DF - sum值
、
、
、
、
我想根据另一
列
的
条件
在
一
列
中
求和值。当
条件
存在时,我可以这样做,但如果
条件
不存在,我会得到一个错误。我需要这样做才能接受这个
条件
不存在,然后继续下一步。5 Hadoop 25000 35days7 Python 22000 50days 对于这个例子,我想把所有有“55天”
的
行
的
费用加在一起duration
浏览 4
提问于2022-07-22
得票数 0
2
回答
通过对多
列
进行分组,用平均值填充缺失值
、
描述:“如何用平均、按
条件
分组数据和按
Pyspark
中
的
模型
列
来填充价格
列
中
缺失
的
值?我
的
python代码如下:cars['price'] = np.ceil(cars['price'].fillna(cars.
groupby
(['condition', 'model' ])['price错误:我尝试了不同
的
代
浏览 2
提问于2021-12-01
得票数 2
回答已采纳
1
回答
多列上
的
多聚合
、
、
我使用Python
在
Pyspark
框架
中
。我试图使用
groupby
在
不同
的
列上应用不同
的
聚合。我有一个包含col1、col2、col3、col4
列
的
df,我想做这样
的
事情:df.
groupby
("col1").sum("col2", "col3").avg("col4") 但是我发现了一个错误:"/u
浏览 4
提问于2019-09-27
得票数 0
回答已采纳
3
回答
如果值小于10,如何
删除
dataframe
中
的
行
如果某一
列
中
的
值小于10,我希望
删除
数据帧
中
的
行
。使用dataframe2.
groupby
('category_id').Description.count(),我可以列出数据帧
中
的
项,这很好用。现在我想
删除
值小于10
的
行
。 我试图创建一个
条件
,以便
删除
行
,但这不起作用。if datafra
浏览 3
提问于2019-08-07
得票数 0
1
回答
如何在
Pyspark
中使用
groupby
删除
条件
中
的
列
、
、
accountname字段组成
的
groupby
中
,我需要根据每个accountname
中
的
clustername字段进行过滤,这样做如下:当clustername
中
的
行
对每个accountname有超过1个条目时,
删除
namespace = infra
的
行
,如果clustername
中
的
行在其accountname
中
只有一
行
,则
浏览 20
提问于2021-03-04
得票数 0
回答已采纳
1
回答
在
pyspark
中分组时,对另一
列
中
满足额外
条件
的
元素进行计数
、
、
以下
pyspark
命令 df = dataFrame.
groupBy
("URL_short").count().select("URL_short", col("count").alias("NumOfReqs+---------+|http4 | 500 ||http3 | 500 |
在
原始
的
DataFrame dataFrame<
浏览 19
提问于2018-12-18
得票数 1
回答已采纳
2
回答
groupBy
和orderBy一起使用
、
、
、
你好,我想实现这样
的
目标我
的
数据如下:flightData2015.selectExpr("*").
groupBy
("DEST_COUNTRY_NAME").orderBy("count").show() 我收到了这个错误
Pyspark
的
浏览 4
提问于2022-03-01
得票数 0
回答已采纳
1
回答
显示组和agg
之后
的
所有火花放电
列
我希望按一
列
分组,然后找到另一
列
的
最大值。最后,显示基于此
条件
的
所有
列
。然而,当我使用我
的
代码时,它只显示2
列
,而不是所有
列
。# Normal way of creating dataframe in
pyspark
(2,2,'0-2spark.createDataFrame([ (4,6,'4-
浏览 0
提问于2020-01-19
得票数 0
回答已采纳
1
回答
pyspark
dataframe“
条件
应为字符串或
列
”
、
、
、
我一直收到错误“TypeError(”
条件
应该是字符串或
列
“)” 我已经尝试更改滤镜以使用col对象。尽管如此,它还是不起作用。path = 'dbfs:/FileStore/tables/TravelData.txt'from
pyspark
.sql.types importimport col answerthree = df.select("toLocation").
groupBy
(&qu
浏览 21
提问于2019-02-02
得票数 0
回答已采纳
1
回答
如何从原始数据帧
中
的
groupby
条件
中
查找
行
?
、
、
、
我有以下
条件
,如果组
的
最后一
行
不等于
列
结果
的
'no‘,则
删除
该组
的
最后一
行
: m1 = df.
groupby
(['id'])['outcome'].tail(1) != 'no' 然后,我使用此
条件
从数据帧
中
删除
以下行: df = df.drop(m1[m1].index) 然而,我不知道如何做相反
的
浏览 10
提问于2021-11-21
得票数 1
回答已采纳
1
回答
Pandas如果
列
包含字符串,则从另一
列
获取唯一值并从dataframe
中
删除
行
、
、
这是一个网络日志数据集,所以我尝试获取
行
的
唯一IP,其中URL包含字符串"robots.txt“,然后如果应用此
条件
,则从dataframe
中
删除
唯一IP
的
行
。len(robots[['ip']].drop_duplicates()) 但在那
之后
,我不知道如何从dataframe
中
删除</
浏览 2
提问于2021-03-13
得票数 0
2
回答
如果满足某些
GroupBy
条件
,则从原始Pandas数据
中
删除
行
、
、
、
我正在尝试构建一种快速Pandas方法,用于
在
满足某些
条件
时从Dataframe
中
删除
某些
行
。具体来说,如果该行
中
的
其他值等于0,则我希望
删除
dataframe
中
某些变量
的
第一个匹配项。,我想查看第一
行
,如果该行
中
的
'bar’值= 0,则将其从dataframe
中
删除
。当这个
条件
满足时,我可以使用<e
浏览 4
提问于2020-02-10
得票数 2
回答已采纳
1
回答
将
PySpark
groupby
collect_set迁移到Dask
、
、
我正在将一个
pySpark
实现迁移到Pandas。为了转换大型数据集,我使用了dask包。
pySpark
实现: df.
groupBy
('Key').agg(collect_set('ColumnA').alias('Items'), collect_set('ColumnB').alias('DocumentId')) 到Pandas df.
groupby
("Key")[['ColumnA
浏览 31
提问于2021-08-16
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券