如何根据PySpark数据帧中的另一列删除数组类型列的值？

在PySpark中，可以使用withColumn函数和array_remove函数来根据数据帧中的另一列删除数组类型列的值。

具体步骤如下：

导入必要的模块和函数：

from pyspark.sql.functions import col, array_remove

使用withColumn函数创建一个新的列，其中包含删除数组类型列的值后的结果：

new_df = df.withColumn("new_array_col", array_remove(col("array_col"), col("another_col")))

其中，df是原始数据帧，"array_col"是要删除值的数组类型列，"another_col"是用于指定要删除的值的参考列。

如果需要替换原始数据帧中的数组类型列，可以使用drop函数删除原始列，并使用withColumnRenamed函数将新列重命名为原始列：

new_df = new_df.drop("array_col").withColumnRenamed("new_array_col", "array_col")

这样，根据PySpark数据帧中的另一列删除数组类型列的值就完成了。

推荐的腾讯云相关产品：腾讯云分析数据库TDSQL、腾讯云数据仓库CDW、腾讯云弹性MapReduce TEMR。

更多关于PySpark的信息和使用方法，可以参考腾讯云PySpark产品文档：腾讯云PySpark产品文档

如何根据PySpark数据帧中的另一列删除数组类型列的值？

、、

假设我在df中有两列:一列是日期，另一列是日期数组。样例行： Date: 2020-03-01, Array_of_dates: ['2020-01-01', '2020-02-01', '2020-04-01', '2020-05-01'] 如何创建另一列，以排除数组中小于Date的值，然后返回剩余的</em

浏览 15提问于2020-09-15得票数 0

回答已采纳

1回答

pyspark将数组类型的列拆分成多列

、

在对数据集运行pyspark中的ALS算法后，我遇到了一个最终的数据帧，如下所示 ? 推荐的列是数组类型，现在我想拆分这一列，我的最终数据帧应该如下所示 ? 谁能建议我，哪个pyspark函数可以用来形成这个数据帧？数据帧<e

浏览 61提问于2021-07-11得票数 0

回答已采纳

2回答

从Pandas中的dataframe列中删除特定对象类型的值

、、、

我有一个pandas dataframe，其中一些值是整数，另一些值是数组。我只是想在"ORIGIN_AIRPORT_ID“列中删除包含数组(我相信是对象数据类型)的所有行，但是在尝试了许多方法之后，我还没能弄清楚如何做到这一点。下面是我的数据帧的前20行的样子。像列表一样显示<e

浏览 0提问于2020-10-08得票数 0

1回答

将列有条件地添加到数据帧中

、、、、

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

检查列是否全部为空

、、

我有一个列名和一个数据帧。我想检查该列中的所有值是否都为空，如果为空，则从数据帧中删除该列。我所做的是检查具有非空值的列的计数，如果count等于0，则删除该列，但在pyspark中这似乎是一个开销很大的操作

浏览 0提问于2019-08-09得票数 0

1回答

Pyspark从dataframe中的整数中删除逗号

、

我有以下名为A的数据帧，它由两列组成： value的列类型为整型。我想要将输出值更改为类似整数的值。因此，例如，第一行的预期结果是-782543，第五行是-614278。我想我只需要使用Pyspark从这一列中删除逗号。有什么建议吗？非常感谢！ ?

浏览 134提问于2021-11-01得票数 0

回答已采纳

2回答

对于1-2列，多个镶嵌块文件具有不同的数据类型

、、、

我尝试使用Pyspark将不同的拼图文件读取到一个数据帧中，但它给了我错误，因为多个拼图文件中的一些列具有不同数据类型的列。例如:列"geo“在某些文件中的数据类型为"Double”，在另一些文件中为"String“。我应该<

浏览 12提问于2021-11-22得票数 0

3回答

在pandas中从较大的数据帧中删除较小数据帧中的值

、、

我在pandas中有一个非常大的数据帧，其中一列被标记为"Col2“，该列的行值包含一个长字符串。我从这个数据框中解析出另一个较小的数据框，其中包含我想要从原始数据框中删除的列"Col2“值。基本上，我希望遍历原始数据帧

浏览 0提问于2015-11-19得票数 0

1回答

具有多个参数的PySpark* UDF返回null*

、、

我有一个包含两列(A、B，其类型为double)的PySpark数据帧，其值为0.0或1.0。我正在尝试添加一个新列，它是这两个列的总和。我遵循了中的示例from pyspark.sql.types import IntegerType, StringType sum_cols

浏览 2提问于2018-09-26得票数 4

1回答

基于行和列条件跨多个CSV文件计算平均值，并删除NA数据

、、、、

我正在处理300多个csv文件中的数据。每个csv文件中的变量列名都是相同的。我使用rbind和loop将列堆叠到一个空的数据框中。我想计算一列的平均值，但在此之前，我需要(1)根据另一列中的值对数据框进行子集或隔离。7我需要<

浏览 0提问于2015-02-14得票数 1

2回答

迭代和计算列的更有效的方法

、

我有一个非常宽的数据帧> 10,000列，我需要计算每个列中空值的百分比。现在我正在做的是：for c in df_a.columns[:]: # print(c)当然，这是一个缓慢的过程，有

浏览 0提问于2017-09-24得票数 1

2回答

PySpark 2.2爆炸删除空行(如何实现explode_outer)？

、、、

我正在处理PySpark数据帧中的一些深度嵌套数据。当我试图将结构扁平化为行和列时，我注意到当我调用withColumn时，如果该行在源列中包含null，那么该行将从我的结果数据帧中删除。要使用的示例数据帧： from pyspark.sql.functions import

浏览 0提问于2018-10-11得票数 2

1回答

categoricalFeaturesInfo += (1 -> 7) java.lang.IllegalArgumentException:需求失败: DecisionTree要求maxBins (= 3)至少与每个分类特性中的值数目一样大，但是分类功能0有31个值。考虑删除具有大量值的此功能和其他分类功能，或添加更多的培训示例。31，我尝试过maxBins = 32 (根据这些帖子中的答案)。就像试用n错

浏览 1提问于2017-11-20得票数 0

1回答

访问PySpark数据帧中的特定项目

、、

如何访问PySpark数据帧中某列的某个索引处的值?例如，我想访问一个名为"Category“的列的索引5处的值。我如何在PySpark语法中做到这一点呢？

浏览 2提问于2018-03-07得票数 10

回答已采纳

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝

浏览 16提问于2020-12-30得票数 2

1回答

将多个PySpark* DataFrames与MergeSchema合并*

、、

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧<em

浏览 2提问于2020-06-22得票数 0

2回答

pyspark:删除所有行中具有相同值的列

相关问题：然而，上述问题的答案仅适用于熊猫。有没有针对pyspark数据帧的解决方案？

浏览 1提问于2018-12-17得票数 4

1回答

如何在pyspark中解压list类型的列

、、、

我在pyspark中有一个dataframe，df有一个数组字符串类型的列，所以我需要生成一个包含列表头部的新列，还需要包含尾列表连接的其他列。这是我的原始数据帧： pyspark> df.show()| id| lst_col|| 1|[a, b, c,d]| +--

浏览 29提问于2020-01-24得票数 0

回答已采纳

2回答

如何检查来自不同数据帧的列值？

、、、

我有两个pyspark数据帧，我想检查第一个数据帧列值是否存在于第二列dataframe.If第一个数据帧列值不存在于第二个数据帧列中，我需要确定这些值并将其写入list.Is有没有更好的方法来使用pyspark感谢您的回复。 df[Nam

浏览 37提问于2020-09-03得票数 0

回答已采纳

1回答

如何重命名所有列，在pyspark中创建dataframe之后，如何根据模式/从csv文件中读取数据类型来转换数据类型

、

在pyspark中创建示例数据 from pyspark.sql.types import StructField testdata = [("aaaa",1,50.0,"05-APR-2020"), ("bbbb",2,100.0TypeError:字段

浏览 1提问于2020-05-04得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何根据PySpark数据帧中的另一列删除数组类型列的值？

相关·内容

如何根据PySpark数据帧中的另一列删除数组类型列的值？

pyspark将数组类型的列拆分成多列

从Pandas中的dataframe列中删除特定对象类型的值

将列有条件地添加到数据帧中

检查列是否全部为空

Pyspark从dataframe中的整数中删除逗号

对于1-2列，多个镶嵌块文件具有不同的数据类型

在pandas中从较大的数据帧中删除较小数据帧中的值

具有多个参数的PySpark* UDF返回null*

基于行和列条件跨多个CSV文件计算平均值，并删除NA数据

迭代和计算列的更有效的方法

PySpark 2.2爆炸删除空行(如何实现explode_outer)？

Scala - MaxBins错误-决策树-范畴变量

访问PySpark数据帧中的特定项目

如何将所有的日期格式转换为日期列的时间戳？

将多个PySpark* DataFrames与MergeSchema合并*

pyspark:删除所有行中具有相同值的列

如何在pyspark中解压list类型的列

如何检查来自不同数据帧的列值？

如何重命名所有列，在pyspark中创建dataframe之后，如何根据模式/从csv文件中读取数据类型来转换数据类型

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐