腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
:
如何
填充
列
中
的
值
并
替
换为
另一个
带
条件
的
dataframe
中
的
列
、
为了便于理解,一个原始
的
(40
列
)和
另一个
转换
的
(60
列
),例如我只提到了3
列
。包含40
列
的
df1_raw2 Montreal Quebec4 EdmontonJohn NewfoundlandID city State 2
浏览 24
提问于2020-11-13
得票数 0
回答已采纳
1
回答
如何
将所有的日期格式转
换为
日期
列
的
时间戳?
、
、
、
我使用
的
是
PySpark
版本3.0.1。我正在将csv文件读取为具有2个日期
列
的
PySpark
数据帧。但是,当我尝试打印模式时,两
列
都被
填充
为字符串类型。 ? ? 上面附加
的
屏幕截图是
Dataframe
和
Dataframe
模式。
如何
使用
pyspark
将date
列
中
的
行
值
转
换为
时
浏览 16
提问于2020-12-30
得票数 2
1
回答
如何
将电火花
列
(
pyspark
.sql.column.Column)转
换为
火花放电数据?
、
、
我有一个用例来映射基于
条件
的
pyspark
列
的
元素。通过这个文档,我找不到一个函数来执行映射函数。因此,尝试使用
pyspark
映射函数,但无法将
pyspark
列
转
换为
dataFrame
带有时间戳字符串
的
浏览 4
提问于2021-11-19
得票数 0
回答已采纳
2
回答
pyspark
withColumn,
如何
改变列名
、
、
有没有办法用
pyspark
2.1.0创建/
填充
列
,其中
列
的
名称是
另一个
列
的
值
?colName to targetColName's value cols =
dataFrame
.columnsTypeError:
浏览 0
提问于2018-09-13
得票数 1
1
回答
根据
条件
向
pyspark
dataframe
添加
列
、
、
、
、
我
的
data.csv文件有三
列
,如下所示。我已经将这个文件转
换为
python spark
dataframe
。A B C| 2 | 0 | 5 |我想在spark
dataframe
中
添加另一
列
D,
值
为Yes或No,
条件
是如果B
列
中
的
相应
值
大于A B C D | 1 | -3
浏览 0
提问于2019-02-23
得票数 3
回答已采纳
2
回答
通过对多
列
进行分组,用平均值
填充
缺失
值
、
描述:“
如何
用平均、按
条件
分组数据和按
Pyspark
中
的
模型
列
来
填充
价格
列
中
缺失
的
值
?我
的
python代码如下:cars['price'] = np.ceil(cars['price'].fillna(cars.groupby(['condition', 'model' ])['price错误
浏览 2
提问于2021-12-01
得票数 2
回答已采纳
1
回答
创建一个新
列
,详细说明一个
PySpark
数据row
中
的
行是否与另一
列
中
的
一个行匹配。
、
、
、
我想要创建一个函数,该函数从
PySpark
中
的
左联接创建一个新
列
,详细说明一个
列
中
的
值
是否匹配或不匹配
另一个
dataframe
逐行
的
列
。例如,我们有一个
PySpark
dataframe
(d1)具有
列
ID和名称,
另一个
PySpark
dataframe
(d2)具有相同<e
浏览 3
提问于2021-12-11
得票数 0
1
回答
如何
对
pyspark
dataframe
列
应用函数
、
、
我正在尝试将我
的
pandas代码转
换为
pyspark
dataframe
,
并
尝试在
dataframe
的
一
列
上应用函数。我在pandas
dataframe
中
做了一些如下
的
事情。在操作了几个
列
值
之后,将新
列
添加到pandas数据帧
中
,如下所示。return USD_amount salesData['Sales (IN
浏览 15
提问于2020-01-03
得票数 1
回答已采纳
1
回答
如何
基于动态
条件
在
PySpark
中
创建新
列
、
我需要在
PySpark
Dataframe
中
创建一个新
列
。但是,创建这个新
列
的
条件
是动态
的
。df.withColumn( expr(column_expression )第二个
带
expr()
的
代码不是创建新
列
。请建议
如何
解决这一问题。
浏览 7
提问于2022-06-17
得票数 0
回答已采纳
1
回答
如何
用
dataframe
子部分
中
的
另一
列
中
的
值
替换一个
列
中
的
值
?
、
、
我必须对
dataframe
的
"activity“
列
执行group和pivot操作,并用"quantity”
列
之和
填充
由pivot产生
的
新
列
。但是,其中一个活动
列
必须使用“成本”
列
的
总和
填充
。分组和支点之前
的
数据帧:| id | quantity |
浏览 1
提问于2022-08-01
得票数 0
回答已采纳
1
回答
迭代
Pyspark
dataframe
的
列
,
并
根据
条件
填充
新
列
、
我有一个需求,那就是在
PySpark
数据帧中有一堆电子邮件、姓名和其他客户信息。我
的
所有电子邮件字段都被屏蔽了,只有一个字段除外,我想在我生成
的
新
列
中
获取该字段
的
名称。df.withColumn("is_base", F.when(df[name].like("%*%"), None).otherwise(name)) 我知道上面的代码覆盖了我正在创建
的
新字段,只是得到了数据帧
中
<
浏览 9
提问于2019-11-23
得票数 0
2
回答
pyspark
数据帧中所有
列
的
总计数为零
、
、
我需要找出
pyspark
dataframe
中所有
列
中
0
的
百分比。
如何
在数据帧中找到每一
列
的
零计数? 附言:我尝试过将数据帧转
换为
pandas数据帧,
并
使用了value_counts。但是,对于大型数据集来说,推断它
的
观察
值
是不可能
的
。
浏览 0
提问于2018-08-20
得票数 4
1
回答
如何
在
PySpark
中
查找具有非空
值
的
列
集合
、
、
、
我有一个带有n个cols
的
Pyspark
Dataframe
(Column_1,Column_2 .Column_n)。我必须再添加一个
列
,其中
列
的
集合以逗号分隔。
条件
:如果两个或更多
的
cols具有
值
,则
填充
集合
列
中
的
逗号分隔
值
,例如。下面是三个cols
的
数据。
浏览 33
提问于2020-06-23
得票数 1
1
回答
如何
根据
另一个
数据
填充
空
、
我有两个
列
dataframe
和一个
列
包含一些空,例如。3 因此,我想使用df1 s.t来填写df1
中
的
空。我首先从df2创建一个查找字典,然后使用df1上
的
apply来
填充
空
值
。但是我并不确定在
pyspark
中使用什么函数,我看到
的
大多数替换null都是基于简单
的
条件
,例如,将所有的空
值
填充
为某个
列
的
一个常量值
浏览 2
提问于2018-03-14
得票数 1
回答已采纳
1
回答
将列有
条件
地添加到数据帧
中
、
、
、
、
我在
PySpark
中有一个数据帧。我想有
条件
地在数据框架
中
添加一
列
。 如果数据帧没有
列
,那么添加一个带有null
值
的
列
。如果
列
存在,则不执行任何操作,
并
返回与新数据帧相同
的
数据帧。
如何
在
PySpark
中
传递
条件
语句
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
1
回答
如何
将
DataFrame
.withColumn与
条件
一起使用
、
、
我想知道
如何
在完整
的
DataFrame
上创建一个新
列
,但其
值
仅基于
DataFrame
的
一个子集(即,基于
条件
应用
的
某些函数)。在本例
中
,我希望创建一个
列
,该
列
将每个ID与Value
列
中
按ID
的
正值之和相关联。|| 1 | 12 | 17 | +--
浏览 1
提问于2019-02-02
得票数 0
1
回答
PySpark
:使用有1000个字段但
列
数可变
的
模式创建RDD->DF->Parquet
、
、
、
、
我正在尝试读取一个ElasticSearch索引,该索引有数百万个文档,每个文档都有可变数量
的
字段。我有一个模式,它有1000个字段,每个字段都有自己
的
名称和类型。现在,当我创建一个RDD低谷ES-Hadoop连接器,然后通过指定模式转
换为
DataFrame
时,它失败了- 我有几个问题。1.是否可能有一个包含可变字段数
的
RDD/DF?如果不是,除了为每个
列
中
缺少
的
字段添
浏览 0
提问于2019-03-11
得票数 2
1
回答
如何
检测
pyspark
中
的
单调下降
、
、
、
我正在使用spark
DataFrame
,我希望检测来自特定
列
的
任何
值
,其中该
值
不是单调递减
的
。对于这些
值
,我想根据排序
条件
将它们替
换为
以前
的
值
。下面是一个概念性
的
示例,假设我有一个
值
为[65, 66, 62, 100, 40]
的
列
。
值
"100“不遵循单调下降趋势,因此应替
换为
62。
浏览 15
提问于2020-02-14
得票数 1
回答已采纳
1
回答
pyspark
中
的
to_json包含空
值
,但我需要空
值
作为空
、
、
、
、
我正在使用
pyspark
中
的
to_json将
dataframe
中
的
结构
列
转
换为
json
列
,但是在json
中
忽略了少数结构字段
中
的
空
值
,我不希望这些空
值
被忽略。
浏览 6
提问于2020-10-14
得票数 0
1
回答
动态
填充
中
的
列名
、
、
、
我正在开发一个动态脚本,它可以join任何给定
的
pyspark
。问题是文件
中
的
列名会发生变化&连接
条件
的
数目可能会有所不同。我可以在一个循环中处理这个问题,但是我使用一个变量名执行连接,它失败了。(我
的
目的是根据文件结构和联接
条件
动态
填充
a和b或更多
列
)a="existingFile.Id" unChangedRecor
浏览 2
提问于2018-02-24
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券