腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
修改
Pyspark
中
dataframe
的
列
值
、
、
、
、
我有这个数据框架,它存储了一家公司
的
股票价格: | _c0| _c1| _c2| _c3| _c4| _c5| _c6|161.544312| 7248100| |2009-01-09|162.691849|162.691849|155.687408|156.517014|156.517014| 8737300| 我想
修改
第一
列
,以便只保留年份,这样我就可以使用groupBy计算每年
的
平均股票价格,如下所示: | _c0| _c1|
浏览 38
提问于2020-12-09
得票数 0
回答已采纳
5
回答
更新spark
中
的
dataframe
列
、
、
、
、
查看新
的
spark API,还不清楚是否有可能
修改
DataFrame
列
。df.ix[x,y] = new_value 编辑:合并下面所说
的
内容,您不能
修改
现有的数据格式,因为它是不可变
的
,但是您可以返回一个新
的
数据格式,并进行所需
的
修改
。如果只想根
浏览 12
提问于2015-03-17
得票数 95
回答已采纳
2
回答
pyspark
dataframe
修改
列
、
、
、
我
的
输入数据框如下所示,其中输入列是动态
的
,即它可以是n个数字,如从input1到input2|dim1|dim2| byvar|101| 102|MTD0001| 1| 10|| 101| 102|MTD0003| 3| 13|| 101| 102|MTD0003| input1| 3| |
浏览 6
提问于2020-04-11
得票数 1
1
回答
在
pyspark
中分组时,对另一
列
中
满足额外条件
的
元素进行计数
、
、
以下
pyspark
命令 df =
dataFrame
.groupBy("URL_short").count().select("URL_short", col("count").alias("NumOfReqs-------+|http4 | 500 ||http3 | 500 | 在原始
的
DataFrame
dataFrame<
浏览 19
提问于2018-12-18
得票数 1
回答已采纳
1
回答
'
DataFrame
‘对象不支持项分配
、
、
、
、
我将df作为一个
pyspark
.sql.
dataframe
.
DataFrame
导入到Databricks
中
。在这个df
中
,我有3
列
(我已经证实它们是字符串),我希望将它们连接起来。我试过先使用一个简单
的
"+“函数。因此,我试图在每一
列
后面添加.astype(str),但没有结果。最后,我尝试简单地添加另一
列
,其中满是数字5:也收到了同样
的
错误。所以现
浏览 1
提问于2022-12-02
得票数 0
1
回答
如何将电火花
列
(
pyspark
.sql.column.Column)转换为火花放电数据?
、
、
我有一个用例来映射基于条件
的
pyspark
列
的
元素。通过这个文档,我找不到一个函数来执行映射函数。因此,尝试使用
pyspark
映射函数,但无法将
pyspark
列
转换为
dataFrame
带有时间戳字符串
的
pyspark
列<
浏览 4
提问于2021-11-19
得票数 0
回答已采纳
1
回答
Pyspark
Dataframe
正在复制
列
中
以前
的
最高
值
(int或date
、
、
我有一个
Pyspark
Dataframe
,在amount
列
中有以下
值
:input
dataframe
之前
的
最高
值
必须复制到后面的记录(行)
中
,直到在
列
中
遇到更高
的
值
,依此类推。amount
列
中
的
期望
值
为:output
dataframe
有人能帮帮我吗。提前谢谢。
浏览 12
提问于2021-09-17
得票数 0
1
回答
如何对
pyspark
dataframe
列
应用函数
、
、
我正在尝试将我
的
pandas代码转换为
pyspark
dataframe
,并尝试在
dataframe
的
一
列
上应用函数。我在pandas
dataframe
中
做了一些如下
的
事情。在操作了几个
列
值
之后,将新
列
添加到pandas数据帧
中
,如下所示。return USD_amount salesData['Sales (INR)'] = salesD
浏览 15
提问于2020-01-03
得票数 1
回答已采纳
2
回答
用不同
的
列
合并两个星火数据格式,以获得所有
列
、
、
AUS null brand2 450 230 我需要我
的
结果数据brand2 450 230因此,我想要
的
df应该包含来自这两个数据
的
所有
列
,我还需要所有行
中
的
Date_part --
浏览 3
提问于2021-08-19
得票数 0
回答已采纳
1
回答
如何在
PySpark
中
获取
列
的
最后
值
、
、
这个问题非常琐碎,但是我在
PySpark
的
世界里是全新
的
,我面临着很多问题,即使是简单
的
任务。我已经试过了 df["A"][-1],但我错了。请注
浏览 1
提问于2019-06-21
得票数 0
回答已采纳
1
回答
如何使用
pyspark
将数值转换为分类变量
有一系列数值变量
的
pyspark
数据帧。 例如 我
的
dataframe
有一个从1到100
的
列
值
。1-10 - group1<== 1到10
的
列
值
应包含group1作为
值
11-20 - group2。。。91-100 group10 如何使用
pyspark
dataframe
实现这一点?
浏览 15
提问于2019-04-10
得票数 1
回答已采纳
1
回答
创建一个新
列
,详细说明一个
PySpark
数据row
中
的
行是否与另一
列
中
的
一个行匹配。
、
、
、
我想要创建一个函数,该函数从
PySpark
中
的
左联接创建一个新
列
,详细说明一个
列
中
的
值
是否匹配或不匹配另一个
dataframe
逐行
的
列
。例如,我们有一个
PySpark
dataframe
(d1)具有
列
ID和名称,另一个
PySpark
dataframe
(d2)具有相同
的
列
浏览 3
提问于2021-12-11
得票数 0
5
回答
火花放电中柱
的
比较
、
、
我正在开发一个包含n
列
的
PySpark
DataFrame
。我有一组m
列
(m < n),我
的
任务是选择其中包含最大
值
的
列
。例如:col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5]col_4 = max(col1,col_2, col_3) = [3,2,5] 正如问题中所解释
浏览 7
提问于2016-06-07
得票数 29
回答已采纳
3
回答
修改
Spark
dataframe
中
的
结构
列
、
、
、
、
我有一个
PySpark
dataframe
,其中包含一个
列
"student“,如下所示: "name" : "kaleem",}在
dataframe
中
,这方面的架构是: name: String, 我需要将该
列
修改</
浏览 3
提问于2020-05-27
得票数 2
回答已采纳
2
回答
如何在
pyspark
datafarme
中
查找重复
的
列
值
、
、
我正在尝试从
pyspark
中
的
dataframe
中
查找重复
的
列
值
。例如,我有一个只有一个
列
'A‘
的
dataframe
,
值
如下:A1245====5
浏览 0
提问于2019-08-27
得票数 4
1
回答
左反团员
、
、
、
我有一个
dataframe
,它有两个
列
a和b,其中b
列
中
的
值
是a
列
中值
的
a子集。df| a| b|| 1| 2|| 2| 1|+---+---+ 我想生成一个包含a和anti_b
列
的
数据格式,其中anti_b
列
中
的
值
是来自a
列
<e
浏览 2
提问于2019-11-18
得票数 0
1
回答
PySpark
PCA:如何将数据行从多
列
转换为单列DenseVector?
、
、
、
、
我想使用
PySpark
(Spark1.6.2)对存在于Hive表
中
的
数值数据执行主成分分析(PCA)。= hiveContext.sql("SELECT * FROM my_table")<class '
pyspark
.sql.
dataframe
.
DataFrame
有一篇优秀
的
StackOverflow文章展示了如何在
PySpark
:<e
浏览 1
提问于2016-10-06
得票数 4
回答已采纳
2
回答
Pyspark
中
的
填充
、
我有一个具有以下数据(所有
列
都有字符串数据类型)
的
Pyspark
(原始数据): 1 103我需要在value
列
中
创建一个新
的
带有填充
的
修改
的
dataframe
,这样该
列
的
长度应该是4字符。如果长度小于4个字符,则在数据
中
浏览 2
提问于2017-07-30
得票数 11
1
回答
如何迭代大型
Pyspark
Dataframe
中
列
的
不同
值
?.distinct().collect()引发大型任务警告
、
我正在尝试迭代一个大型
Pyspark
Dataframe
列
中
的
所有不同
值
。当我尝试使用.distinct().collect()执行此操作时,即使只有两个不同
的
值
,它也会发出“任务太大”警告。下面是一些示例代码: spark = SparkSession.builder.appName('Basics').getOrCreate['
浏览 1
提问于2020-01-14
得票数 1
1
回答
如何将所有的日期格式转换为日期
列
的
时间戳?
、
、
、
我使用
的
是
PySpark
版本3.0.1。我正在将csv文件读取为具有2个日期
列
的
PySpark
数据帧。但是,当我尝试打印模式时,两
列
都被填充为字符串类型。 ? ? 上面附加
的
屏幕截图是
Dataframe
和
Dataframe
模式。 如何使用
pyspark
将date
列
中
的
行
值
转换为时间戳格式?我已经尝试了很多东西,但所有的代码都需要当前
浏览 16
提问于2020-12-30
得票数 2
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券