更改dataframe pyspark中的列值

文章/答案/技术大牛

发布

1回答

、、

我在这两个类别中都有一个分类专栏，比如说Product_ID，我想要做的是，我想为这些类别设置-1值，这些类别正在测试中，但在训练中没有出现。为此，我首先在p_not_in_test中为该列找到了不同的类别。但我不能继续下去。

浏览 2提问于2016-09-13得票数 0

回答已采纳

3回答

如何在PySpark中用零替换句号？

、、

我试图用PySpark中的0值替换原始数据中的句号。 from pyspark.sql import functions as F dataframe2 = dataframe1.withColumn("test_col&qu

浏览 8提问于2019-09-01得票数 1

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame带有时间戳字符串的pyspark列<

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

Pyspark Dataframe正在复制列中以前的最高值(int或date

、、

我有一个Pyspark Dataframe，在amount列中有以下值：input dataframe 之前的最高值必须复制到后面的记录(行)中，直到在列中遇到更高的值，依此类推。amount列中的期望值为：output dataframe 有人能帮帮我吗。提前谢谢。

浏览 12提问于2021-09-17得票数 0

1回答

迭代两个数据，比较和更改熊猫或火星雨中的值。

、、

如果比较成功，我需要比较两个dataframe之间的几个列，并更改第一个dataframe中一个列的值。Dataframe 1：Pants Germany Red 0我希望检查文章、国家/产地和颜色列是否匹配(所以请检查是否可以在dataframe

浏览 3提问于2019-09-23得票数 0

回答已采纳

1回答

如何对pyspark* dataframe列应用函数*

、、

我正在尝试将我的pandas代码转换为pyspark dataframe，并尝试在dataframe的一列上应用函数。我在pandas dataframe中做了一些如下的事情。在操作了几个列值之后，将新列添加到pandas数据帧中，如下所示。return USD_amount salesData['Sales (INR)'] = salesD

浏览 15提问于2020-01-03得票数 1

回答已采纳

1回答

如何在PySpark中获取列的最后值

、、

这个问题非常琐碎，但是我在PySpark的世界里是全新的，我面临着很多问题，即使是简单的任务。我已经试过了 df["A"][-1]，但我错了。请注

浏览 1提问于2019-06-21得票数 0

回答已采纳

1回答

如何使用pyspark将数值转换为分类变量

有一系列数值变量的pyspark数据帧。例如我的dataframe有一个从1到100的列值。1-10 - group1<== 1到10的列值应包含group1作为值11-20 - group2。。。91-100 group10 如何使用pyspark dataframe实现这一点？

浏览 15提问于2019-04-10得票数 1

回答已采纳

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的列

浏览 3提问于2021-12-11得票数 0

5回答

火花放电中柱的比较

、、

我正在开发一个包含n列的PySpark DataFrame。我有一组m列(m < n)，我的任务是选择其中包含最大值的列。例如：col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5]col_4 = max(col1,col_2, col_3) = [3,2,5] 正如问题中所解释

浏览 7提问于2016-06-07得票数 29

回答已采纳

2回答

如何在pyspark* datafarme中查找重复的列值*

、、

我正在尝试从pyspark中的dataframe中查找重复的列值。例如，我有一个只有一个列'A‘的dataframe，值如下：A1245====5

浏览 0提问于2019-08-27得票数 4

5回答

更新spark中的dataframe列

、、、、

查看新的spark API，还不清楚是否有可能修改DataFrame列。df.ix[x,y] = new_value 编辑：合并下面所说的内容，您不能修改现有的数据格式，因为它是不可变的，但是您可以返回一个新的数据格式，并进行所需的修改。如果只想根据条件替换列<em

浏览 12提问于2015-03-17得票数 95

回答已采纳

1回答

左反团员

、、、

我有一个dataframe，它有两个列a和b，其中b列中的值是a列中值的a子集。df| a| b|| 1| 2|| 2| 1|+---+---+ 我想生成一个包含a和anti_b列的数据格式，其中anti_b列中的值是来自a列<e

浏览 2提问于2019-11-18得票数 0

1回答

PySpark:如何根据列的数据类型替换空值？

、

我有一张表格，里面有257列。我试图找出如何根据数据类型更改表中的空值。我正试图在PySpark中做到这一点。而dataframe的名字叫做df。因此，例如，如果列包含日期，则为时间戳数据类型，且该列中的空值必须为1900-01-01如果是字符串类型，则应该是n/a 谢谢

浏览 5提问于2022-04-15得票数 0

回答已采纳

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

、、、、

我想使用PySpark (Spark1.6.2)对存在于Hive表中的数值数据执行主成分分析(PCA)。= hiveContext.sql("SELECT * FROM my_table")<class 'pyspark.sql.dataframe.DataFrame有一篇优秀的StackOverflow文章展示了如何在PySpark：<e

浏览 1提问于2016-10-06得票数 4

回答已采纳

1回答

如何迭代大型Pyspark* Dataframe中列的不同值？.distinct().collect()引发大型任务警告*

、

我正在尝试迭代一个大型Pyspark Dataframe列中的所有不同值。当我尝试使用.distinct().collect()执行此操作时，即使只有两个不同的值，它也会发出“任务太大”警告。下面是一些示例代码： spark = SparkSession.builder.appName('Basics').getOrCreate['

浏览 1提问于2020-01-14得票数 1

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所有的代码都需要当前

浏览 16提问于2020-12-30得票数 2

1回答

PySpark DataFrame:标记某些列值发生更改的行

、、、

我有一个包含'people‘和'timestamp’列的PySpark DataFrame (加上其他与问题无关的列)。解释是用户在那个时候做了一些事情。我想对“人物”的所有行进行分组，其中“时间戳”的差异不超过“阈值”值(例如5分钟)。感谢你的想法！

浏览 35提问于2018-08-30得票数 0

回答已采纳

1回答

如何根据PySpark数据帧的另一列中的值修改一列？F.when边缘情况

、、、、

我想遍历pyspark dataframe中的每一行，并根据另一列的内容更改列的值。我要将其更改为的值也基于要更改的列的当前值。具体地说，我有一列包含DenseVectors，另一列包含我需要的向量的索引。或者，我也可以

浏览 11提问于2019-04-25得票数 2

回答已采纳

1回答

基于regex的星火库过滤与重新分配

、

我有一个名为DataFrame的星火df，如上图所示。有一个名为region的列，它当前只有值NE。有一个单独的列，名为address，有许多地址。我想将region的观察结果更改为VA，其中address以VA结尾。我该怎么做？pyspark或sparkr命令都可以工作。

浏览 5提问于2017-05-17得票数 0

回答已采纳

点击加载更多