向spark dataframe添加一列，该列包含当前行的所有值不为空的列名的列表

。

要实现这个功能，可以使用Spark的内置函数和API来处理。下面是一种可能的解决方案：

首先，我们需要导入必要的Spark库和函数：

from pyspark.sql.functions import col, array

然后，我们可以使用withColumn函数向dataframe添加新列。在这个新列中，我们将使用array函数来创建一个包含所有非空列名的列表。我们可以使用col函数来引用列。

df = df.withColumn('non_null_columns', array([col(c) for c in df.columns if col(c).isNotNull()]))

在上述代码中，df.columns返回dataframe的所有列名。我们使用列表推导式来遍历每个列，并使用col(c).isNotNull()来检查每个列的值是否为空。如果不为空，我们将使用col(c)将列名添加到新的列表中。

最后，我们可以查看更新后的dataframe，以验证新列是否包含了所有非空列名的列表。

df.show()

这是一个完整的示例代码：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, array

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例dataframe
data = [("Alice", 25, None),
        ("Bob", None, "Engineer"),
        ("Charlie", 30, "Doctor")]

df = spark.createDataFrame(data, ["Name", "Age", "Profession"])

# 向dataframe添加新列
df = df.withColumn('non_null_columns', array([col(c) for c in df.columns if col(c).isNotNull()]))

# 查看更新后的dataframe
df.show()

这个例子中，我们创建了一个包含三个列的dataframe。然后，我们使用上述代码向dataframe添加了一个名为non_null_columns的新列，该列包含了每行中所有非空列名的列表。最后，我们使用show函数查看了更新后的dataframe。

请注意，这只是一种实现方式，你可以根据自己的需求和具体情况进行调整和修改。

推荐的腾讯云相关产品：腾讯云的云数据仓库CDW（Cloud Data Warehouse）是一种高性能、可弹性扩展的云上数据仓库服务，适用于大数据分析、数据仓库、BI等场景。CDW提供了强大的数据处理和分析能力，可以帮助用户快速构建和管理数据仓库，并提供了丰富的数据仓库工具和生态系统支持。你可以在腾讯云官网上找到更多关于CDW的详细介绍和使用指南。

腾讯云CDW产品介绍链接地址：https://cloud.tencent.com/product/cdw

向spark dataframe添加一列，该列包含当前行的所有值不为空的列名的列表

scala

您好，我想向dafaframe添加一个新列，其中包含(该行的)所有非空列名的列表。我如何在Scala中实现这一点。请帮帮忙。null, null, null, null) ).toDF("emp_id", "emp_city", "emp_name", "emp_phone", "emp_sal", "emp_site&quo

浏览 14提问于2020-06-01得票数 1

回答已采纳

1回答

在Spark DataFrame中添加一个新列，该列包含一个列的所有值的总和-Scala/Spark

scala、apache-spark、dataframe、apache-spark-sql

which is takes after adding a column but that does not contain the sum of all values of one column 我尝试在dataframe中添加一列，该列包含同一dataframe中一列的所有值的总和。例如:在图片中有列- UserID，MovieID，Rating，UserID

浏览 25提问于2019-01-23得票数 0

回答已采纳

2回答

当另一列不为空时的行号

sql、postgresql

当另一列不为空时，我想添加一个行号我有一个包含日期值的列，另一个包含数值的列，并且我希望在数值列不为空时填充行号我试过case when，但不起作用

浏览 23提问于2020-10-05得票数 0

回答已采纳

1回答

当尝试在groupBy之后映射值时，不能使用null作为映射键

apache-spark、apache-spark-sql

我在这里试图实现的是groupBy来自Dataframe的所有元素，然后将它们的所有多个值聚合到一个列中，该列将包含一个值的list(map())。Selectors.selectColumn(Name), ) ) 但是，当试图执行

浏览 1提问于2019-09-02得票数 0

回答已采纳

2回答

配置单元“alter table <table name> concatenate”是如何工作的？

hadoop、hive、hiveql、orc

我有n(large)数量的小尺寸的orc文件，我想合并成k(small)数量的大的orc文件。任何指针都会很棒。

浏览 36提问于2017-01-24得票数 3

2回答

(C#) OpenXML用正确的列数据类型将xlsx导入DataTable

c#、excel、datatable、openxml、xlsx

xlsx的第一行包含列名，因此我开始在DataTable中添加该列：{} 然后循环所有其他行，并以类似的方式向DataTable中添加任何一行和当前行中的任何

浏览 3提问于2017-08-30得票数 1

1回答

scala中的withColumn函数没有将contstant值添加到列

scala、apache-spark

这是我的代码： val df=spark.emptyDataFramemodify2.show(false) 它返回一个空的

浏览 50提问于2021-05-10得票数 1

1回答

pyspark:可以向空的dataframe或rdd添加行吗？

pyspark、spark-dataframe

我有一个dataframe (从hive表创建)。我已经将数据帧转换为RDD，并且正在逐行检索。在每一行上，我解析每个列值，如果某个特定的列无效，则使用列名和值添加到字典中。我已经使用表模式创建了一个空的数据帧。是否可以将行<e

浏览 0提问于2016-06-30得票数 1

1回答

Spark在添加随机双列时，在所有行中都有重复值。

scala、apache-spark、dataframe

我试图在dataframe中添加一个新列。新列包含随机双值。该问题是DataFrame中所有行的新列中的值重复。我使用scala.util.Random类来生成。我试图简单地向dataframe添加一个新列，就像在类似的帖子中建议的那样。我试图将DataFrame</

浏览 2提问于2019-04-26得票数 2

回答已采纳

2回答

通过解析列值为dataframe创建新列，并使用来自另一列python的值填充新列。

python、performance、pandas

我需要根据某一列中的列表向dataframe添加新列。新列需要是从列中的所有列表派生的集合。然后，我有另一列，列与第一列相对应，但数据略有不同。如果值不在“不包括”列表中，则需要这些值填充新列。Asthma Ph III|Approve

浏览 5提问于2017-01-11得票数 0

回答已采纳

1回答

数据帧中的Spark更新列值

scala、apache-spark、dataframe、apache-spark-sql、spark-dataframe

Spark dataframes to SQL的最佳等价物是什么我有一些有效的解决方案，但我真的不是很满意。看起来真的很麻烦，我希望我错过了一种更简单的方式首先，我得到where子句的值(可能有数千个，所以我不想使用集合) val df2 = xxxx.select("coltab2") df2: org.apache.spark.sql.DataFrame= [coltab2: string] 此数据帧包含我

浏览 25提问于2017-08-18得票数 1

2回答

如何计算Access 2010表中所有列中的所有空值？

ms-access、ms-access-2010

我需要能够计算Access 2010表的所有列中的所有NULLS。具体来说，我的意思是，在30列(字段)中，有大量包含部分数据的记录。有谁有进一步的线索吗？ :)

浏览 2提问于2012-05-12得票数 1

1回答

如何在Spark中的空Dataframe中添加行记录

scala、dataframe、apache-spark、apache-spark-sql

我正在尝试在Spark scala中创建一个空的dataFrame，并希望创建自己的模式并将记录加载到其中。下面是示例但是我无法获得在创建模式时放置的默认值</

浏览 32提问于2021-03-13得票数 0

1回答

时间戳StructField中的空值

scala、apache-spark

如何处理时间戳列中的空值？我将源数据保存在列表中(sql的结果) [220,1,220,220,2012-04-24 23在最后一列中，空值与时间戳混合。val dataFrame = spark.createDataFrame(rdd, StructType(fields))

浏览 0提问于2018-06-21得票数 0

回答已采纳

1回答

如何处理数据框中列中的json数据集？

python、pyspark、apache-spark-sql

我在spark中有一个dataframe，它有一个列，其中包含json类型的数据。，并执行如下操作:分解列d1:'123_23‘on '_’并添加为数据框中的另一列。如何读取json中有多少键不为空值？如果有任何数组，那么如何计算该数组的元素。：key "k:“下

浏览 0提问于2018-09-08得票数 0

3回答

如何在Pyspark中替换dataframe的所有空值

dataframe、null、pyspark

我在pyspark中有一个超过300列的数据框架。在这些列中，有一些列的值为null。_2null null125 124and so on 当我想对column_1求和时，我得到的结果是一个空值现在，我想用空格替换数据框所有列中的null。所以当我尝试对这些列</em

浏览 1提问于2017-02-18得票数 56

回答已采纳

1回答

Spark选择dataframe中的某些列作为映射

scala、dataframe、apache-spark

我有一个dataframe df和一个列名列表来选择这个数据作为一个map。+------------------------------------+ 列名列表可能包含0或最多3个列名。列名在地图中出现的顺序很重要，我需要地图中的键来保

浏览 1提问于2020-11-05得票数 0

回答已采纳

1回答

星火DataFrames联盟

scala、apache-spark

如果df2是空的，我尝试使用这段代码向dataframe添加一行，但是我得到了这个错误，我不明白原因。我没有一个名为value的专栏。线程"main“中的异常java.lang.IllegalArgumentException: java.lang.IllegalArgumentException失败:列数不匹配。旧列名(1)：值新列名(2)：国家，代码 var df1 = Seq.emp

浏览 3提问于2022-06-22得票数 1

回答已采纳

2回答

Scala Spark:包含JSON列的数据集

json、scala、apache-spark、spark-dataframe

来自Spark初学者的问候！我有一个包含多个列的DataFrame，比如ID、name和properties。它们都是string类型。最后一列properties包括该对象的一些属性的JSON表示。我正在寻找一些方法来迭代DataFrame，解析JSON，并从每个项目中提取特定的JSON字段-并将其附加到DataFrame的行中。"

浏览 9提问于2017-03-14得票数 0

1回答

计算火花DataFrame中每一列的核密度

apache-spark、apache-spark-mllib

有没有一种方法可以计算DataFrame的每一列的KDE？有人知道我该</e

浏览 1提问于2018-11-30得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

向spark dataframe添加一列，该列包含当前行的所有值不为空的列名的列表

相关·内容

向spark dataframe添加一列，该列包含当前行的所有值不为空的列名的列表

在Spark DataFrame中添加一个新列，该列包含一个列的所有值的总和-Scala/Spark

当另一列不为空时的行号

当尝试在groupBy之后映射值时，不能使用null作为映射键

配置单元“alter table <table name> concatenate”是如何工作的？

(C#) OpenXML用正确的列数据类型将xlsx导入DataTable

scala中的withColumn函数没有将contstant值添加到列

pyspark:可以向空的dataframe或rdd添加行吗？

Spark在添加随机双列时，在所有行中都有重复值。

通过解析列值为dataframe创建新列，并使用来自另一列python的值填充新列。

数据帧中的Spark更新列值

如何计算Access 2010表中所有列中的所有空值？

如何在Spark中的空Dataframe中添加行记录

时间戳StructField中的空值

如何处理数据框中列中的json数据集？

如何在Pyspark中替换dataframe的所有空值

Spark选择dataframe中的某些列作为映射

星火DataFrames联盟

Scala Spark:包含JSON列的数据集

计算火花DataFrame中每一列的核密度

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐