腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
根据
其他
列
替换
pyspark
列
、
、
在我的"data“数据框中,我有两
列
,”time_stamp“和”hour“。我想在缺少'time_stamp‘值的地方插入'hour’
列
值。我不想创建新
列
,而是在'time_stamp‘中填充缺少的值 我想要做的是将这个pandas代码
替换
为
pyspark
代码: data['time_stamp'] = data.apply(lambda
浏览 8
提问于2019-03-21
得票数 0
回答已采纳
1
回答
Pyspark
根据
其他
列
值添加新
列
、
、
NULL 0.092020-11-05 2 3 0.41 我想创建一个"Ratios_latest“
列
。为此,我应该向下查看每个客户端的" value“
列
的值。这将是我的"Ratio_latest“
列
值。我
根据
上面的数据分享了期望的输出; Date Client Values Ratios Ratios_latest 2020-10-26 1 NU
浏览 35
提问于2021-01-11
得票数 0
回答已采纳
1
回答
pyspark
:
根据
其他
记录获取
列
、
、
我是新来
Pyspark
的,所以请帮助我。
浏览 9
提问于2019-04-18
得票数 0
2
回答
如何
根据
其他
列
更新
PySpark
中的
列
?
、
我有一个包含"CUSTOMER_MAILID“、"OFFER_NAME”、"OFFER_ISAPPLIED“
列
的数据帧。amit1185@gmail.com|Jaipur Pink Panth...| N| 如果"OFFER_ISAPPLIED“列有一些值,我想用"Y”更新"OFFER_NAME“
列
值
浏览 0
提问于2016-11-14
得票数 1
1
回答
如何检测
pyspark
中的单调下降
、
、
、
我正在使用spark DataFrame,我希望检测来自特定
列
的任何值,其中该值不是单调递减的。对于这些值,我想
根据
排序条件将它们
替换
为以前的值。下面是一个概念性的示例,假设我有一个值为[65, 66, 62, 100, 40]的
列
。值"100“不遵循单调下降趋势,因此应
替换
为62。因此,结果列表将是[65, 66, 62, 62, 40]。下面是我创建的一些代码,用于检测必须
替换
的值,但是我不知道如何用前一个值
替换
该值,也不知道如何忽略lag中的初始null
浏览 15
提问于2020-02-14
得票数 1
回答已采纳
2
回答
Pyspark
删除dataframe
列
中的多个字符
、
、
看一下
pyspark
,我看到translate和regexp_replace可以帮助我处理存在于数据框
列
中的单个字符。我想知道是否有一种方法可以在regexp_replace或translate中提供多个字符串,以便解析它们并用
其他
东西
替换
它们。 用例:删除A
列
中的所有$、#和逗号(,)
浏览 0
提问于2018-06-09
得票数 10
回答已采纳
2
回答
检查三
列
中是否存在空值,并在
PySpark
中创建一个新
列
、
因此,目前,我有一个带有三
列
的星火DataFrame,我希望
根据
其他
三
列
是否包含空值来添加第四
列
,名为target。PASS |如果column_1、column_2、column_2都为null,我希望传递目标
列
中的值最初,我认为UDF或Pandas会起作用,但据我所知,在使用UDF之前,您应该使用
PySpark
函数,因为它们在计算上非常昂贵。由于我是
浏览 9
提问于2022-06-06
得票数 0
2
回答
根据
其他
列
替换
列
中的值
、
Bvitoria_argos.csv', na_values=[' -99999.0'])HS Tp2.0 11.3nan 5.9目标是
根据
''HS'‘值
替换
''Tp'’
列
中的值,并得到如下内容:3.0 12.0nan nan5.6 7.0c.loc[c.HS==
浏览 0
提问于2017-07-17
得票数 0
2
回答
如何在
pyspark
中在groupby之后进行条件聚合?
、
我试图
根据
pyspark
数据格式中的ID
列
对
列
进行分组,并
根据
另一
列
的值对
列
进行求和。对于sales,我知道可以这样做:df = df.groupBy("ID").agg(F.sum("amount").alias("sales")) 对
其他
人来说,我猜F.when会很有用,但我不知道该怎么做。
浏览 1
提问于2019-06-13
得票数 0
回答已采纳
2
回答
Pyspark
-
根据
其他
列
值移位列值
我需要
根据
dataframe中的
其他
列
向左移
列
。
浏览 24
提问于2019-05-03
得票数 0
回答已采纳
5
回答
更新spark中的dataframe
列
、
、
、
、
查看新的spark API,还不清楚是否有可能修改DataFrame
列
。from
pyspark
.sql import functions as F df = df.withColumn('new_column_name
浏览 12
提问于2015-03-17
得票数 95
回答已采纳
1
回答
完整数据帧的火花散
列
、
是否可以找到完整
PySpark
数据的哈希值(最好是散
列
256)。我不想找到单个行或
列
的散
列
。我知道
pySpark
中存在函数,用于从
pyspark
.sql.functions导入sha2进行列级哈希计算。读取数据中的数据,通过SoldDate进行分区,计算每个分区的散
列
,并将其写入文件/表。输出:
浏览 8
提问于2022-12-04
得票数 0
1
回答
如何
根据
其他
列
使用Python在Spark中创建新
列
?
、
、
、
、
我的数据库包含一
列
字符串。我将
根据
其他
列
的一部分创建一个新
列
。然后,我对
列
"content“进行迭代,提取要插入新
列
的单词: column=[] column.append(word) return pd.Series(column)
浏览 6
提问于2022-01-26
得票数 0
回答已采纳
1
回答
PySpark
根据
其他
列
中的类别添加多个
列
、
null3 | 3 | 1这意味着它将groupBy id, category并创建虚拟
列
。pivoted_df = df.groupBy("id") \ .agg(F.lit(F.col("value")))
pyspark
.sql.utils.AnalysisExceptionAggreg
浏览 3
提问于2022-03-24
得票数 0
回答已采纳
1
回答
pyspark
:如何
根据
相同Id的
其他
列
修改
列
值
我有一个包含5
列
的
pyspark
数据帧:Id、值X、X的上下限和更新日期(此数据帧按"Id,update“排序)。07|2018-12-17|2018-11-17| | 2|2018-12-15|2018-12-07|2018-12-17|2018-11-18| 当"X“小于"LB”或大于"UB“时,将
根据
浏览 26
提问于2019-03-25
得票数 0
1
回答
使用
PySpark
在多列上执行滞后操作
、
、
、
、
我对
PySpark
相当陌生,但我正在尝试在代码中使用最佳实践。我有一个
PySpark
数据格式,我想延迟多个
列
,用滞后值
替换
原始值。我想
根据
ID获取所有值,按date排序,然后对值进行一定程度的滞后。我到目前为止掌握的代码: window = Window.partitionBy(F.col("ID"))我遇到的问题是,据我所能找到的,F.lag只接受一个
列
浏览 3
提问于2022-01-04
得票数 1
回答已采纳
1
回答
在
pyspark
的现有dataframe中添加新
列
的方法是什么?
、
、
、
我已经在现有的数据框中添加了一个新
列
,但它没有反映在数据帧中。customerDf.withColumn("fullname",expr("concat(firstname,'|',lastname)"))有没有办法向现有的dataframe添加一个新的
列
(我们在
pyspark
中有没有类似的功能?
浏览 4
提问于2021-01-26
得票数 0
1
回答
pyspark
列
字符
替换
、
、
、
我决定的代码是有效的,但是对于一个超过350
列
的excel表格来说,实际上是inefficient....like 5个小时。我需要另一种更有效的方法来减少运行时间。
浏览 2
提问于2021-06-04
得票数 0
1
回答
在
pyspark
数据帧中用数字
替换
字符串
、
我刚接触
pyspark
,我想在
pyspark
dataframe
列
中动态地用数字
替换
名称,因为我的dataframe中有超过500,000个名称。如何继续?
浏览 9
提问于2019-07-25
得票数 0
1
回答
如何
根据
PySpark
数据帧的另一
列
中的值修改一
列
?F.when边缘情况
、
、
、
、
我想遍历
pyspark
dataframe中的每一行,并
根据
另一
列
的内容更改
列
的值。我要将其更改为的值也基于要更改的
列
的当前值。具体地说,我有一
列
包含DenseVectors,另一
列
包含我需要的向量的索引。 或者,我也可以用DenseVector中两个值中较大的一个
替换
DenseVector。我主要尝试将F.when()与withColumn结合使用,但F.when()的第二个元素遇到了麻烦,因为我想存储向量的正确索引,但不能直接对
列
浏览 11
提问于2019-04-25
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
根据用户输入自动判断新列:示例中的列
利用Python实现表格中指定列的值替换
如何将 Excel 中一整列公式作为文本提取到其他列?
吴晓波:人工智能已经可以根据人的心情好坏,帮人调酒列菜单
谷歌发布广告报告新转化列,广告商可根据报告迅速调整预算和出价
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券