腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
Pyspark
中
使用
groupby
删除
条件
中
的
列
、
、
_3_1 | ns_3_2 | 11df在一个由accountname字段组成
的
groupby
中
,我需要根据每个accountname
中
的
clustername字段进行过滤,这样做如下:当clustername
中
的
行对每个accountname有超过1个条目时,
删除
namespace = infra
的
行,如果clu
浏览 20
提问于2021-03-04
得票数 0
回答已采纳
2
回答
如何
删除
所有重复行(忽略某些
列
)而不留下任何dupe对?
、
、
8 | 3258958304 |+----+-------+-------+--------------++----+-------+-------+-----------+| 5 | steve | 9 | 124324234 | +----+-------+-
浏览 1
提问于2018-06-19
得票数 1
回答已采纳
1
回答
Pyspark
:在
groupBy
之后
删除
列
条件
中
的
行
、
这是我
的
输入数据帧:1 Y2 a3 Nid val 2 a 3 N 我想在val
中
同时包含Y和N
的
列
id上进行分组,然后
删除
val
列
包含"N“
的
行。请帮我解决这个问题,因为我是
pyspark
的
初学者。
浏览 7
提问于2018-09-06
得票数 2
回答已采纳
1
回答
将列有
条件
地添加到数据帧
中
、
、
、
、
我在
PySpark
中有一个数据帧。我想有
条件
地在数据框架
中
添加一
列
。 如果数据帧没有
列
,那么添加一个带有null值
的
列
。如果
列
存在,则不执行任何操作,并返回与新数据帧相同
的
数据帧。如
何在
PySpark
中
传递
条件
语句
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
2
回答
通过对多
列
进行分组,用平均值填充缺失值
、
描述:“如何用平均、按
条件
分组数据和按
Pyspark
中
的
模型
列
来填充价格
列
中
缺失
的
值?我
的
python代码如下:cars['price'] = np.ceil(cars['price'].fillna(cars.
groupby
(['condition', 'model' ])['price错误:我尝试了不同
的
代
浏览 2
提问于2021-12-01
得票数 2
回答已采纳
1
回答
pyspark
dataframe“
条件
应为字符串或
列
”
、
、
、
我无法对数据帧
使用
筛选器。我一直收到错误“TypeError(”
条件
应该是字符串或
列
“)” 我已经尝试更改滤镜以
使用
col对象。尽管如此,它还是不起作用。path = 'dbfs:/FileStore/tables/TravelData.txt'from
pyspark
.sql.types importimport col answerthree = df.select("toLocat
浏览 21
提问于2019-02-02
得票数 0
回答已采纳
2
回答
如何从
PySpark
中
的
2
列
中
获得一行序列字符串?
、
、
、
、
我有以下数据结构:
列
"s“和"d”表示"x“
列
中
对象
的
转换。我想要做
的
是获取"x“
列
中
的
每个对象
的
转换字符串。例如,“新”栏如下:有
使用
PySpark
的
好方法吗?我
使用
PySpark
尝试了以下udf代码,但它不起作用: from
pyspark
.sql.functi
浏览 13
提问于2022-10-19
得票数 1
回答已采纳
3
回答
熊猫-如
何在
有
条件
的
群
中
创建多个
列
?
、
、
、
我需要分组一个dataframe,但是我需要创建两个
列
,一个是简单计数,另一个是带有
条件
的
计数,
如
示例所示:qtd_ok
列
只计算那些有“OK”
的
我尝试过这样做,但是我不知道如
何在
同一个
groupby
中
添加总数 df.
groupby
(['column1', 'column2', 'column3']).apply(lambda x :
浏览 0
提问于2018-11-21
得票数 4
回答已采纳
5
回答
PySpark
中
的
Panda
的
value_counts()
的
等价物是什么?
、
、
、
我有以下python/pandas命令:我在这里获取DataFrameGroupBy对象中所有
列
的
值计数。如
何在
PySpark
中
执行此操作?
浏览 1
提问于2018-06-27
得票数 32
1
回答
Dataframe中新
列
的
PySpark
1.5组和
、
、
、
、
我试图
使用
groupBy
和sum (
使用
PySpark
1.5)在
中
创建一个新
列
(“
PySpark
”)。我
的
数字
列
已被转换为长列或双列。用来形成
groupBy
的
列
是字符串和时间戳。我
的
代码如下 df= df.withColumn("newaggCol",(df.
groupBy
([df.strCol,df.tsCol]).sum
浏览 2
提问于2016-03-07
得票数 2
回答已采纳
1
回答
用火花放电写自定义
的
联非新议程
、
、
、
我需要编写一个自定义
的
pySpark
,我遇到了这个例子。在类似的行
中
,
如
线程
的
最后一部分所示,我提出了以下函数 StructField("keybloomfilter.set(df.value1) return pd.DataFrame([[gr]+[x]+[y]+[w]+[z]+[p]]) df3.
grou
浏览 1
提问于2019-04-04
得票数 1
1
回答
在
pyspark
中分组时,对另一
列
中
满足额外
条件
的
元素进行计数
、
、
以下
pyspark
命令 df = dataFrame.
groupBy
("URL_short").count().select("URL_short", col("count").alias("NumOfReqsdataFrame
中
,我有一个名为success
的
列
,其类型为text。在结果
中
,我希望有一个额外
的
列
,例如,NumOfSuccess,它计算每个类别"true&qu
浏览 19
提问于2018-12-18
得票数 1
回答已采纳
1
回答
如何将字符串数组转换为带
条件
的
结构数组
、
、
、
、
我有一个单列_c0
的
pyspark
数据帧。我
使用
的
代码如下: transform(split(_c0, '[|]'), (x, i) -> 问题是,我有多
浏览 21
提问于2020-02-09
得票数 1
回答已采纳
2
回答
PySpark
Pandas:通过标识
列
和求和两个不同
的
列
来创建新
的
2x2表
、
、
、
、
我有以下示例数据集:A 1 1A 00A 1 1我想通过将"previous“和"current”
列
相加来创建下表previous_total current_total我已经尝试了
groupby
和.agg<e
浏览 0
提问于2018-10-30
得票数 0
3
回答
PySpark
DataFrame上分组数据
的
熊猫式转换
、
、
、
、
如果我们有一个由一
列
类别和一
列
值组成
的
Pandas数据框架,我们可以通过执行以下操作来
删除
每个类别
中
的
平均值:据我所知,不直接提供这个按组/转换操作(我在Spark1.5.0上
使用
PyS
浏览 8
提问于2015-12-25
得票数 19
回答已采纳
1
回答
从
pyspark
dataframe
中
的
数组
列
中
删除
结构
、
、
我想从dataframe (
pyspark
)
中
的
数组(在array
列
中
)
中
删除
一个数组。import
pyspark
.sql.functions as F|1 |[[A, 2], [B, 3]] | |2 |
浏览 18
提问于2020-02-05
得票数 1
回答已采纳
1
回答
Parquet文件
中
groupby
的
最佳实践
、
、
、
为了生成一个count聚合,我们需要对几个
列
进行分组。我们目前
的
战略是: 读取Parquet文件(Dask或
pyspark
),并在dataframe
的
索引上运行
groupby
。对于Parquet文件上高效
的
groupby
浏览 2
提问于2017-07-09
得票数 3
1
回答
与另一
列
中
的
条件
匹配
的
列
中
的
Pandas DF - sum值
、
、
、
、
我想根据另一
列
的
条件
在一
列
中
求和值。当
条件
存在时,我可以这样做,但如果
条件
不存在,我会得到一个错误。我需要这样做才能接受这个
条件
不存在,然后继续下一步。示例df:technologies = ({ 'Courses':["Spark","
PySpark
","Hadoop","Python&qu
浏览 4
提问于2022-07-22
得票数 0
1
回答
PySpark
中
的
群累积计数
、
--------- 1 | john | 3 | jo |目标是,如果'id‘
列
是重复
的
在潘达斯,我可以这样做:count_num = count_id.replace(0, '').astype(str)df['id'] += count_num 我试图在
Py
浏览 0
提问于2019-04-10
得票数 0
回答已采纳
3
回答
如何修改
pyspark
使用
的
一行
中
的
一个
列
值
我想当userid=22650984.How在
pyspark
平台上更新它
的
价值?谢谢你
的
帮助。
浏览 8
提问于2018-04-08
得票数 11
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券