修改Pyspark中dataframe的列值

文章/答案/技术大牛

发布

1回答

、、、、

我有这个数据框架，它存储了一家公司的股票价格： | _c0| _c1| _c2| _c3| _c4| _c5| _c6|161.544312| 7248100| |2009-01-09|162.691849|162.691849|155.687408|156.517014|156.517014| 8737300| 我想修改第一列，以便只保留年份，这样我就可以使用groupBy计算每年的平均股票价格，如下所示： | _c0| _c1|

浏览 38提问于2020-12-09得票数 0

回答已采纳

5回答

更新spark中的dataframe列

、、、、

查看新的spark API，还不清楚是否有可能修改DataFrame列。df.ix[x,y] = new_value 编辑：合并下面所说的内容，您不能修改现有的数据格式，因为它是不可变的，但是您可以返回一个新的数据格式，并进行所需的修改。如果只想根

浏览 12提问于2015-03-17得票数 95

回答已采纳

2回答

pyspark dataframe修改列

、、、

我的输入数据框如下所示，其中输入列是动态的，即它可以是n个数字，如从input1到input2|dim1|dim2| byvar|101| 102|MTD0001| 1| 10|| 101| 102|MTD0003| 3| 13|| 101| 102|MTD0003| input1| 3| |

浏览 6提问于2020-04-11得票数 1

1回答

在pyspark中分组时，对另一列中满足额外条件的元素进行计数

、、

以下pyspark命令 df = dataFrame.groupBy("URL_short").count().select("URL_short", col("count").alias("NumOfReqs-------+|http4 | 500 ||http3 | 500 | 在原始的DataFramedataFrame<

浏览 19提问于2018-12-18得票数 1

回答已采纳

1回答

'DataFrame‘对象不支持项分配

、、、、

我将df作为一个pyspark.sql.dataframe.DataFrame导入到Databricks中。在这个df中，我有3列(我已经证实它们是字符串)，我希望将它们连接起来。我试过先使用一个简单的"+“函数。因此，我试图在每一列后面添加.astype(str)，但没有结果。最后，我尝试简单地添加另一列，其中满是数字5：也收到了同样的错误。所以现

浏览 1提问于2022-12-02得票数 0

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame带有时间戳字符串的pyspark列<

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

Pyspark Dataframe正在复制列中以前的最高值(int或date

、、

我有一个Pyspark Dataframe，在amount列中有以下值：input dataframe 之前的最高值必须复制到后面的记录(行)中，直到在列中遇到更高的值，依此类推。amount列中的期望值为：output dataframe 有人能帮帮我吗。提前谢谢。

浏览 12提问于2021-09-17得票数 0

1回答

如何对pyspark* dataframe列应用函数*

、、

我正在尝试将我的pandas代码转换为pyspark dataframe，并尝试在dataframe的一列上应用函数。我在pandas dataframe中做了一些如下的事情。在操作了几个列值之后，将新列添加到pandas数据帧中，如下所示。return USD_amount salesData['Sales (INR)'] = salesD

浏览 15提问于2020-01-03得票数 1

回答已采纳

2回答

用不同的列合并两个星火数据格式，以获得所有列

、、

AUS null brand2 450 230 我需要我的结果数据brand2 450 230因此，我想要的df应该包含来自这两个数据的所有列，我还需要所有行中的Date_part --

浏览 3提问于2021-08-19得票数 0

回答已采纳

1回答

如何在PySpark中获取列的最后值

、、

这个问题非常琐碎，但是我在PySpark的世界里是全新的，我面临着很多问题，即使是简单的任务。我已经试过了 df["A"][-1]，但我错了。请注

浏览 1提问于2019-06-21得票数 0

回答已采纳

1回答

如何使用pyspark将数值转换为分类变量

有一系列数值变量的pyspark数据帧。例如我的dataframe有一个从1到100的列值。1-10 - group1<== 1到10的列值应包含group1作为值11-20 - group2。。。91-100 group10 如何使用pyspark dataframe实现这一点？

浏览 15提问于2019-04-10得票数 1

回答已采纳

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的列

浏览 3提问于2021-12-11得票数 0

5回答

火花放电中柱的比较

、、

我正在开发一个包含n列的PySpark DataFrame。我有一组m列(m < n)，我的任务是选择其中包含最大值的列。例如：col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5]col_4 = max(col1,col_2, col_3) = [3,2,5] 正如问题中所解释

浏览 7提问于2016-06-07得票数 29

回答已采纳

3回答

修改Spark dataframe中的结构列

、、、、

我有一个PySpark dataframe，其中包含一个列"student“，如下所示： "name" : "kaleem",}在dataframe中，这方面的架构是： name: String, 我需要将该列修改</

浏览 3提问于2020-05-27得票数 2

回答已采纳

2回答

如何在pyspark* datafarme中查找重复的列值*

、、

我正在尝试从pyspark中的dataframe中查找重复的列值。例如，我有一个只有一个列'A‘的dataframe，值如下：A1245====5

浏览 0提问于2019-08-27得票数 4

1回答

左反团员

、、、

我有一个dataframe，它有两个列a和b，其中b列中的值是a列中值的a子集。df| a| b|| 1| 2|| 2| 1|+---+---+ 我想生成一个包含a和anti_b列的数据格式，其中anti_b列中的值是来自a列<e

浏览 2提问于2019-11-18得票数 0

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

、、、、

我想使用PySpark (Spark1.6.2)对存在于Hive表中的数值数据执行主成分分析(PCA)。= hiveContext.sql("SELECT * FROM my_table")<class 'pyspark.sql.dataframe.DataFrame有一篇优秀的StackOverflow文章展示了如何在PySpark：<e

浏览 1提问于2016-10-06得票数 4

回答已采纳

2回答

Pyspark中的填充

、

我有一个具有以下数据(所有列都有字符串数据类型)的Pyspark (原始数据)： 1 103我需要在value列中创建一个新的带有填充的修改的dataframe，这样该列的长度应该是4字符。如果长度小于4个字符，则在数据中

浏览 2提问于2017-07-30得票数 11

1回答

如何迭代大型Pyspark* Dataframe中列的不同值？.distinct().collect()引发大型任务警告*

、

我正在尝试迭代一个大型Pyspark Dataframe列中的所有不同值。当我尝试使用.distinct().collect()执行此操作时，即使只有两个不同的值，它也会发出“任务太大”警告。下面是一些示例代码： spark = SparkSession.builder.appName('Basics').getOrCreate['

浏览 1提问于2020-01-14得票数 1

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所有的代码都需要当前

浏览 16提问于2020-12-30得票数 2

点击加载更多