腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
根据
条件
pyspark
计算
不同
的
列
值
、
、
、
、
我有一个包含两个可能
值
的
列
:'users‘或'not_users’ 我想要做
的
是当这些
值
是‘countDistinct’时使用这些
值
这是我使用
的
代码: output = (df3345 2308 2020-43 5689 4000 这个期望
的
输出应该是它所属
的
列
中'user
浏览 8
提问于2020-12-23
得票数 1
回答已采纳
1
回答
完整数据帧
的
火花散
列
、
是否可以找到完整
PySpark
数据
的
哈希
值
(最好是散
列
256)。我不想找到单个行或
列
的
散
列
。我知道
pySpark
中存在函数,用于从
pyspark
.sql.functions导入sha2进行列级哈希
计算
。读取数据中<e
浏览 8
提问于2022-12-04
得票数 0
1
回答
基于其他
列
更新
列
的
Pyspark
行
、
---+----++---+----+| 2| Tim|| 4| sam|现在,我向df添加了一个新
列
,null|| 3| Jim| null|+---+----+----------+ 现在,我想
根据
一个
条件
更新new_column中
的
值
。我试图写下面的
条件
,但无法这样做。编辑--我不
浏览 1
提问于2018-05-02
得票数 0
回答已采纳
2
回答
根据
excel中
的
条件
计算
字符串
的
唯一数目
、
我想
根据
excel中
的
条件
来
计算
唯一
的
字符串。 在下面的示例中,
列
B到F是输入,
列
G和H是预期输出。目前,我正在为H6 =COUNTIFS(E1:E20, "<>", B1:B20, G6, C1:C20, "v1", D1:D20, "f")使用公式,但是使用这个公式,1被
计算
为2时间,但我不想
计算
重复条目如何
根据
条件
忽略重复
浏览 2
提问于2020-02-01
得票数 0
回答已采纳
1
回答
动态填充中
的
列名
、
、
、
我正在开发一个动态脚本,它可以join任何给定
的
pyspark
。问题是文件中
的
列名会发生变化&连接
条件
的
数目可能会有所
不同
。我可以在一个循环中处理这个问题,但是我使用一个变量名执行连接,它失败了。(我
的
目的是
根据
文件结构和联接
条件
动态填充a和b或更多
列
)a="existingFile.Id" unChangedRecor
浏览 2
提问于2018-02-24
得票数 0
回答已采纳
2
回答
要为每行
pyspark
dataframe
计算
多个if elif
条件
、
、
、
我需要帮助在
pyspark
数据帧主题。我有一个数据框架,比如1000+
列
和100000+ rows.Also,我有10000+ if elif
条件
,在每个if else
条件
下,只有很少
的
全局变量被一些
值
递增。现在我
的
问题是,我如何才能仅在
pyspark
中实现这一点。我读到了过滤器和where函数,它们
根据
条件
返回行,我需要检查这些10000+ if else
条件
并执行一些操作。 任何帮助都将不胜感激
浏览 0
提问于2017-07-25
得票数 0
1
回答
pypsark循环转换为映射
我有一个具有空
值
的
数据集。0|| 1| 1| 0||null| 1| 0|我编写了一个函数来
计算
数据集中每个
列
的
空
值
百分比,并从数据集中删除这些
列
。strength: return df 我
浏览 7
提问于2022-07-14
得票数 0
回答已采纳
1
回答
将列有
条件
地添加到数据帧中
、
、
、
、
我在
PySpark
中有一个数据帧。我想有
条件
地在数据框架中添加一
列
。 如果数据帧没有
列
,那么添加一个带有null
值
的
列
。如果
列
存在,则不执行任何操作,并返回与新数据帧相同
的
数据帧。如何在
PySpark
中传递
条件
语句
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
1
回答
基于VBA内部
条件
和粘贴
值
的
求和
、
我正在尝试找出一些代码,将来自vba内部
不同
工作表
的
所有
值
加在一起,并将它们粘贴为
值
。我想一次运行每一行(一行都有相同
的
条件
,只是
根据
列
号从
不同
的
地方获取数据)。 我怎样才能这样
根据
条件
来
计算
和呢?
浏览 2
提问于2020-02-21
得票数 0
回答已采纳
1
回答
pyspark
.sql.functions -计数以考虑空
值
:
、
我试图让
pyspark
.sql.functions.count()函数或
pyspark
.sql.functions.count_distinct()函数在
计算
列
中
不同
元素
的
数量时考虑null
值
。null| accounts| null|+---+------+-----------+------+ 现在,如果我运行以下代码来
计算
每个
列
中
不同
<em
浏览 12
提问于2022-06-07
得票数 0
1
回答
PySpark
支持
条件
语句
的
短路评估吗?
、
、
、
、
我想在我
的
dataframe中创建一个新
的
布尔
列
,它
的
值
来自对同一dataframe中其他
列
的
两个
条件
语句
的
计算
:| 2| red| NULL| NULL| +-------+----------+-----
浏览 7
提问于2021-07-14
得票数 2
回答已采纳
1
回答
如何
根据
条件
阈值
pyspark
计算
列
的
累加和
、
、
、
、
我有一个如下所示
的
数据框架。我希望
计算
V上每个id
的
累积和,以便当前一行
的
累积大于或等于阈值25时,累积和将重置为当前
值
,如下图所示。我尝试在V上编写一个用户定义
的
to运算符,但我收到一个错误,指出它是不可迭代
的
。我试过你
的
滞后,但我也没有成功。我需要帮助!
浏览 24
提问于2021-10-20
得票数 0
回答已采纳
3
回答
pyspark
:获取dataframe
的
每一
列
中
的
唯一项
、
我有一个包含一百万行和560
列
的
spark数据帧。我需要找到dataframe
的
每一
列
中唯一项
的
计数。我已经编写了以下代码来实现这一点,但它被卡住了,并且执行起来花费了太多
的
时间: var=count_unique_items.append(data.select(var).distinct().rdd.map(lambda r:r[0]).count()) cat_col包
浏览 9
提问于2016-11-29
得票数 0
1
回答
如何
计算
pyspark
数据帧中值
的
条件
概率?
、
、
、
我想通过
pyspark
中
的
列
类型
的
值
来
计算
ratings
列
中
的
评级(‘A’,'B','C')
的
条件
概率,而不是收集。
浏览 21
提问于2020-10-26
得票数 1
回答已采纳
2
回答
通过对多
列
进行分组,用平均值填充缺失
值
、
描述:“如何用平均、按
条件
分组数据和按
Pyspark
中
的
模型
列
来填充价格
列
中缺失
的
值
?我
的
python代码如下:cars['price'] = np.ceil(cars['price'].fillna(cars.groupby(['condition', 'model' ])['price错误:我尝试了
不同
的
代码,但是每次我都会
浏览 2
提问于2021-12-01
得票数 2
回答已采纳
1
回答
PYSPARK
:如何
根据
条件
更新
列
中
的
值
、
给定两个
列
的
表: DEVICEID和DEVICETYPEfrom
pyspark
.sql.functions import *
浏览 1
提问于2020-06-23
得票数 3
回答已采纳
1
回答
检查火花数据中
的
行
值
是否为空。
、
、
、
、
我正在使用
pyspark
中
的
自定义函数来检查星火数据true中每一行
的
条件
,如果
条件
为true,则添加
列
。守则如下:from
pyspark
.sql.functions import *sdf.show()AttributeError
浏览 3
提问于2016-08-19
得票数 7
3
回答
Pyspark
:
根据
条件
和
不同
的
值
添加一个新
列
、
、
、
、
['2', '2', '8', '23', '0004'] ['col1', 'col2', 'col3', 'col4', 'col5']df.show() 我想
根据
下面的
条件
和
不同
的
值
添加一个新
列
寻找一种改进
的
或替代
的
方法,
浏览 0
提问于2021-04-08
得票数 2
回答已采纳
1
回答
如何检测
pyspark
中
的
单调下降
、
、
、
我正在使用spark DataFrame,我希望检测来自特定
列
的
任何
值
,其中该
值
不是单调递减
的
。对于这些
值
,我想
根据
排序
条件
将它们替换为以前
的
值
。下面是一个概念性
的
示例,假设我有一个
值
为[65, 66, 62, 100, 40]
的
列
。
值
"100“不遵循单调下降趋势,因此应替换为62。因此,结果列表将是[65, 66,
浏览 15
提问于2020-02-14
得票数 1
回答已采纳
1
回答
用复变函数更新
列
、
、
、
、
是否可以使用一个复杂
的
函数更新hiveContext数据
列
? 我有一个包含许多
列
的
dataframe,其中2
列
称为时间戳和数据。我需要从数据中
的
JSON字符串中检索时间戳,如果数据中
的
时间戳满足某些
条件
,则需要更新时间戳
列
。我知道该数据格式是不可变
的
,但是可以以某种方式构建一个新
的
dataframe,保留旧
的
dataframe
的
所有
列
,但更新时间
浏览 7
提问于2016-05-10
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Excel综合应用:如何显著标记出两列数据中的不同值?
一文读懂PySpark数据框
一文读懂 PySpark 数据框
一个Python大数据处理利器:PySpark入门指南
遇见YI算法之初识Pyspark(二)
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券