腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
更改
dataframe
pyspark
中
的
列
值
、
、
我在这两个类别中都有一个分类专栏,比如说Product_ID,我想要做
的
是,我想为这些类别设置-1
值
,这些类别正在测试
中
,但在训练
中
没有出现。为此,我首先在p_not_in_test
中
为该
列
找到了不同
的
类别。但我不能继续下去。
浏览 2
提问于2016-09-13
得票数 0
回答已采纳
3
回答
如何在
PySpark
中用零替换句号?
、
、
我试图用
PySpark
中
的
0
值
替换原始数据
中
的
句号。 from
pyspark
.sql import functions as F
dataframe
2 =
dataframe
1.withColumn("test_col&qu
浏览 8
提问于2019-09-01
得票数 1
1
回答
如何将电火花
列
(
pyspark
.sql.column.Column)转换为火花放电数据?
、
、
我有一个用例来映射基于条件
的
pyspark
列
的
元素。通过这个文档,我找不到一个函数来执行映射函数。因此,尝试使用
pyspark
映射函数,但无法将
pyspark
列
转换为
dataFrame
带有时间戳字符串
的
pyspark
列<
浏览 4
提问于2021-11-19
得票数 0
回答已采纳
1
回答
Pyspark
Dataframe
正在复制
列
中
以前
的
最高
值
(int或date
、
、
我有一个
Pyspark
Dataframe
,在amount
列
中有以下
值
:input
dataframe
之前
的
最高
值
必须复制到后面的记录(行)
中
,直到在
列
中
遇到更高
的
值
,依此类推。amount
列
中
的
期望
值
为:output
dataframe
有人能帮帮我吗。提前谢谢。
浏览 12
提问于2021-09-17
得票数 0
1
回答
迭代两个数据,比较和
更改
熊猫或火星雨中
的
值
。
、
、
如果比较成功,我需要比较两个
dataframe
之间
的
几个
列
,并
更改
第一个
dataframe
中一个
列
的
值
。
Dataframe
1:Pants Germany Red 0我希望检查文章、国家/产地和颜色
列
是否匹配(所以请检查是否可以在
dataframe
浏览 3
提问于2019-09-23
得票数 0
回答已采纳
1
回答
如何对
pyspark
dataframe
列
应用函数
、
、
我正在尝试将我
的
pandas代码转换为
pyspark
dataframe
,并尝试在
dataframe
的
一
列
上应用函数。我在pandas
dataframe
中
做了一些如下
的
事情。在操作了几个
列
值
之后,将新
列
添加到pandas数据帧
中
,如下所示。return USD_amount salesData['Sales (INR)'] = salesD
浏览 15
提问于2020-01-03
得票数 1
回答已采纳
1
回答
如何在
PySpark
中
获取
列
的
最后
值
、
、
这个问题非常琐碎,但是我在
PySpark
的
世界里是全新
的
,我面临着很多问题,即使是简单
的
任务。我已经试过了 df["A"][-1],但我错了。请注
浏览 1
提问于2019-06-21
得票数 0
回答已采纳
1
回答
如何使用
pyspark
将数值转换为分类变量
有一系列数值变量
的
pyspark
数据帧。 例如 我
的
dataframe
有一个从1到100
的
列
值
。1-10 - group1<== 1到10
的
列
值
应包含group1作为
值
11-20 - group2。。。91-100 group10 如何使用
pyspark
dataframe
实现这一点?
浏览 15
提问于2019-04-10
得票数 1
回答已采纳
1
回答
创建一个新
列
,详细说明一个
PySpark
数据row
中
的
行是否与另一
列
中
的
一个行匹配。
、
、
、
我想要创建一个函数,该函数从
PySpark
中
的
左联接创建一个新
列
,详细说明一个
列
中
的
值
是否匹配或不匹配另一个
dataframe
逐行
的
列
。例如,我们有一个
PySpark
dataframe
(d1)具有
列
ID和名称,另一个
PySpark
dataframe
(d2)具有相同
的
列
浏览 3
提问于2021-12-11
得票数 0
5
回答
火花放电中柱
的
比较
、
、
我正在开发一个包含n
列
的
PySpark
DataFrame
。我有一组m
列
(m < n),我
的
任务是选择其中包含最大
值
的
列
。例如:col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5]col_4 = max(col1,col_2, col_3) = [3,2,5] 正如问题中所解释
浏览 7
提问于2016-06-07
得票数 29
回答已采纳
2
回答
如何在
pyspark
datafarme
中
查找重复
的
列
值
、
、
我正在尝试从
pyspark
中
的
dataframe
中
查找重复
的
列
值
。例如,我有一个只有一个
列
'A‘
的
dataframe
,
值
如下:A1245====5
浏览 0
提问于2019-08-27
得票数 4
5
回答
更新spark
中
的
dataframe
列
、
、
、
、
查看新
的
spark API,还不清楚是否有可能修改
DataFrame
列
。df.ix[x,y] = new_value 编辑:合并下面所说
的
内容,您不能修改现有的数据格式,因为它是不可变
的
,但是您可以返回一个新
的
数据格式,并进行所需
的
修改。如果只想根据条件替换
列
<em
浏览 12
提问于2015-03-17
得票数 95
回答已采纳
1
回答
左反团员
、
、
、
我有一个
dataframe
,它有两个
列
a和b,其中b
列
中
的
值
是a
列
中值
的
a子集。df| a| b|| 1| 2|| 2| 1|+---+---+ 我想生成一个包含a和anti_b
列
的
数据格式,其中anti_b
列
中
的
值
是来自a
列
<e
浏览 2
提问于2019-11-18
得票数 0
1
回答
PySpark
:如何根据
列
的
数据类型替换空
值
?
、
我有一张表格,里面有257
列
。我试图找出如何根据数据类型
更改
表
中
的
空
值
。我正试图在
PySpark
中
做到这一点。而
dataframe
的
名字叫做df。因此,例如,如果
列
包含日期,则为时间戳数据类型,且该
列
中
的
空
值
必须为1900-01-01如果是字符串类型,则应该是n/a 谢谢
浏览 5
提问于2022-04-15
得票数 0
回答已采纳
1
回答
PySpark
PCA:如何将数据行从多
列
转换为单列DenseVector?
、
、
、
、
我想使用
PySpark
(Spark1.6.2)对存在于Hive表
中
的
数值数据执行主成分分析(PCA)。= hiveContext.sql("SELECT * FROM my_table")<class '
pyspark
.sql.
dataframe
.
DataFrame
有一篇优秀
的
StackOverflow文章展示了如何在
PySpark
:<e
浏览 1
提问于2016-10-06
得票数 4
回答已采纳
1
回答
如何迭代大型
Pyspark
Dataframe
中
列
的
不同
值
?.distinct().collect()引发大型任务警告
、
我正在尝试迭代一个大型
Pyspark
Dataframe
列
中
的
所有不同
值
。当我尝试使用.distinct().collect()执行此操作时,即使只有两个不同
的
值
,它也会发出“任务太大”警告。下面是一些示例代码: spark = SparkSession.builder.appName('Basics').getOrCreate['
浏览 1
提问于2020-01-14
得票数 1
1
回答
如何将所有的日期格式转换为日期
列
的
时间戳?
、
、
、
我使用
的
是
PySpark
版本3.0.1。我正在将csv文件读取为具有2个日期
列
的
PySpark
数据帧。但是,当我尝试打印模式时,两
列
都被填充为字符串类型。 ? ? 上面附加
的
屏幕截图是
Dataframe
和
Dataframe
模式。 如何使用
pyspark
将date
列
中
的
行
值
转换为时间戳格式?我已经尝试了很多东西,但所有的代码都需要当前
浏览 16
提问于2020-12-30
得票数 2
1
回答
PySpark
DataFrame
:标记某些
列
值
发生
更改
的
行
、
、
、
我有一个包含'people‘和'timestamp’
列
的
PySpark
DataFrame
(加上其他与问题无关
的
列
)。解释是用户在那个时候做了一些事情。我想对“人物”
的
所有行进行分组,其中“时间戳”
的
差异不超过“阈值”
值
(例如5分钟)。感谢你
的
想法!
浏览 35
提问于2018-08-30
得票数 0
回答已采纳
1
回答
如何根据
PySpark
数据帧
的
另一
列
中
的
值
修改一
列
?F.when边缘情况
、
、
、
、
我想遍历
pyspark
dataframe
中
的
每一行,并根据另一
列
的
内容
更改
列
的
值
。我要将其
更改
为
的
值
也基于要
更改
的
列
的当前
值
。具体地说,我有一
列
包含DenseVectors,另一
列
包含我需要
的
向量
的
索引。 或者,我也可以
浏览 11
提问于2019-04-25
得票数 2
回答已采纳
1
回答
基于regex
的
星火库过滤与重新分配
、
我有一个名为
DataFrame
的
星火df,如上图所示。有一个名为region
的
列
,它当前只有
值
NE。有一个单独
的
列
,名为address,有许多地址。我想将region
的
观察结果
更改
为VA,其中address以VA结尾。我该怎么做?
pyspark
或sparkr命令都可以工作。
浏览 5
提问于2017-05-17
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券