腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
不带groupby
的
计数
和
非
重复
计数
使用
PySpark
、
、
我有一个数据帧(testdf),希望在另一
列
(booking/rental)不为null或
非
空(即“”)
的
列
(memid)上获得
计数
和
非
重复
计数
。testdf100 Y 120 Y预期结果:(对于预订
列
不为空/
非
空)= "" 在
PySpar
浏览 44
提问于2018-06-05
得票数 0
1
回答
列
的
PySpark
非
重复
计数
、
、
、
、
我有一个
PySpark
DataFrame,如下所示: +------+-----------++------+-----------+|B |2020-06-20 ||D |2020-06-21 | +------+-----------+ 我想检索每个不同IP地址
的
计数
,这些IP地址被分解为每天看到
的
不同IP地址
的
数量。,因为它将DF拆分成时间窗口,并获得每个时间
浏览 21
提问于2020-08-04
得票数 0
回答已采纳
1
回答
pyspark
.sql.functions -
计数
以考虑空值:
、
我试图让
pyspark
.sql.functions.count()函数或
pyspark
.sql.functions.count_distinct()函数在计算
列
中不同元素
的
数量时考虑null值。让我给出以下可
重复
的
示例,为此我需要创建一个数据集:df = spark.createDataFrame([(1,"arun","engineering",从我
的
研究来看,这似乎与count_d
浏览 12
提问于2022-06-07
得票数 0
1
回答
Pyspark
删除包含10个空值
的
列
、
我是
PySpark
的
新手。我只想保留至少有10个值
的
列
现在如何提取值小于10
的
列名,然后在写入新文件之前删除这些
列
df = spark.read.parquet(file
浏览 1
提问于2019-09-28
得票数 1
1
回答
函数从大型数据集中删除
重复
的
列
。
尝试在连接hdfs表后删除
pyspark
df中
的
重复
列名称? 您好,我正在尝试连接多个具有200+最终
列
数
的
数据集。由于要求和大量
的
列
,我不能在连接时选择特定
的
列
。有没有办法在连接后删除
重复
的
列
。我知道有一种方法可以通过spark df
的
.join方法来做到这一点,但是我加入
的
基表不是spark df,并且我正在试图避免在join之前将它们转换
浏览 20
提问于2018-12-20
得票数 1
1
回答
检查
列
是否全部为空
、
、
我想检查该
列
中
的
所有值是否都为空,如果为空,则从数据帧中删除该
列
。 我所做
的
是检查具有
非
空值
的
列
的
计数
,如果count等于0,则删除该
列
,但在
pyspark
中这似乎是一个开销很大
的
操作
浏览 0
提问于2019-08-09
得票数 0
1
回答
PySpark
:如何从两
列
中计算不同值
的
数目?
我有一个有两个
列
的
DataFrame,id1, id2,我想要得到
的
是
计数
,这两个
列
的
不同值
的
数量。本质上这是count(set(id1+id2))。 我怎样才能用
PySpark
做到这一点呢?请注意,,这不是一个
重复
的
,因为我希望
PySpark
计算count()。当然,获得两个列表id1_distinct和id2_distinct并将它们放到set()中是可能
的
,但在我看来,在处理
浏览 11
提问于2021-05-16
得票数 0
回答已采纳
1
回答
从火花数据中选择或删除
重复
列
、
、
、
给定一个星星之火数据,有一个
重复
的
列名(例如。( A)对于不能修改上游或源
的
,如何选择、删除或重命名其中
的
一个
列
,以便检索
列
值?df.select('A')向我显示了一个不明确
的
列
错误,filter、drop和withColumnRenamed也是如此。如何选择其中一
列
?
浏览 0
提问于2018-09-06
得票数 2
1
回答
如何从另一
列
输入array_repeat函数
计数
值?
如何从另一
列
输入array_repeat函数
计数
值:>>>dftmp = spark.createDataFrame([('ab-----++----+------------++----+------------+ 是否有一种方法可以根据另一
列
使用
重复
计数
值
浏览 8
提问于2020-05-21
得票数 1
回答已采纳
2
回答
PySpark
,我如何在一
列
中计算不同,在DataFrame中按另一
列
进行排序?
、
、
我在A
列
中有一个
重复
行
的
DataFrame,其值在B
列
中有差异| Column A | Column B || APPLE |BANANA | RED || BANANA | GREEN |我想在B栏中单独
计数
可以使用
PySpark
或SQL。
浏览 9
提问于2022-11-16
得票数 0
回答已采纳
2
回答
列
中
的
pyspark
计数
非
空值
、
、
我有一个包含空值
的
dataframe: (125, '2012-10-10','tv'), (40, '2012-10-10( None, '2012-10-10','tv')] 我需要
浏览 1
提问于2018-02-06
得票数 3
回答已采纳
2
回答
两
列
的
非
重复
计数
、
、
、
我一直在四处寻找,但找不到一个明确匹配
的
问题
的
答案。734917 273003002 2891624 273003002 3Category Count 273003002 2 谢
浏览 1
提问于2013-09-07
得票数 2
1
回答
如何获得火花源中
的
顺序in
、
、
、
我有一个具有
重复
和
非
顺序I
的
pyspark
。我想添加一个序列id
列
,即下面的第二
列
1 |17 |33 |2window = Window.orderBy(col('iddf.select('id').distinct().withColumn('seq', F.row_number().over(window)) df.join(df1, on
浏览 2
提问于2020-06-08
得票数 2
回答已采纳
1
回答
当前日期
的
Distinct公式总数
合同类型:结束日期: Yamaha Active 2019年1月1日铃木Active 2014年1月1日日产Active 2018年1月1日欧宝残疾人2020年1月1日奔驰残疾人2013年1月1日 合同类型
列
中标记为有效且
列
终止日期显示
的
日期晚于当天
的
合同合计(
非
重复
计数
)。因此,如果今天
的
日期是2017年1月1日,那么总
的
非
重复
计数
应该是2(雅马哈和日产)。您能帮助提供正确<em
浏览 1
提问于2017-01-18
得票数 0
1
回答
基于少数列
的
CountDistinct()
、
、
假设我在
PySpark
中
的
数据文件如下所示:--------------------cat1 | A | dogB | catcat2 | A | catcat1 | B | dog 我想分组猫,以便我可以
计数
不同
的
字母和宠物这意味着,如果这两
列
对于特定
的
猫是相同
的
-有
重复
浏览 2
提问于2020-06-29
得票数 0
回答已采纳
1
回答
运行spark.read.json时在json中找到
重复
列,即使没有
重复
列
、
、
、
在
PySpark
和Synapse数据流中,我遇到了非常奇怪
的
错误。 )这是我所知道
的
堆栈跟踪:
浏览 3
提问于2021-11-25
得票数 0
1
回答
我需要在一个单独
的
列
中检查一
列
的
副本,并单独过滤出不
重复
的
列
。
、
列
中有
重复
项。我需要一个单独
的
列
,它显示有
重复
的
记录。然后我需要一个切片过滤器,它只显示一次记录,并将它们标记为
非
重复
的
,rest作为
重复
的
。有一个名为concat_username_userinvoice
的
列
(我为这2
列
执行了串联函数)。现在,我检查了使用此公式多次发生
的
记录,如下所示 CALCULATE(COUNT(
浏览 2
提问于2022-11-28
得票数 0
1
回答
基于多
列
的
非
重复
计数
、
"Book", "B", 7, "Game",但是现在我想添加一个新
的
列
,它显示每个商店
的
分类数量,并希望保留所有其他
列
。以下是所需
的
结果: ~shop_name, ~product_id, ~category, ~num
浏览 9
提问于2019-11-18
得票数 0
回答已采纳
1
回答
STreamlit如何实现在每次小部件交互后不重新运行
的
有状态ML应用程序
、
、
我想要实现一个有状态
的
ML应用程序,它不会用一个小部件重新运行每一个无畏
的
动作。除了步骤4
的
默认选择外,当我选择一个新变量时,整个脚本将重新运行。只有我在第四步中与之互动
的
内容,请帮助我。import pandas as pdimport matplotl
浏览 7
提问于2021-11-18
得票数 0
1
回答
如何在多列上选择
非
重复
计数
?
、
如何选择多
列
的
非
重复
计数
?在DB2中有没有与此等效
的
工作方式?
浏览 0
提问于2018-01-09
得票数 7
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券