如何在spark scala Dataframe中找到所有值都为null或NA值的列的列表？

在Spark Scala中，可以使用isNull和isNan函数来判断DataFrame中的值是否为null或NA。以下是找到所有值都为null或NA的列的列表的方法：

导入必要的Spark包：

import org.apache.spark.sql.functions._

使用columns方法获取DataFrame的所有列名：

val allColumns = df.columns

使用select和agg函数来查找所有值都为null或NA的列：

val nullColumns = df.select(allColumns.map(c => sum(col(c).isNull || col(c).isNaN).alias(c)): _*)
  .agg(expr("concat_ws(',', collect_set(col)) as null_columns"))
  .as[String]
  .first()
  .getString(0)
  .split(",")

解释一下上述代码的步骤：

df.select(allColumns.map(c => sum(col(c).isNull || col(c).isNaN).alias(c)): _*)：对每一列应用isNull和isNaN函数，将结果求和，并使用列名作为别名。
.agg(expr("concat_ws(',', collect_set(col)) as null_columns"))：将每一列的结果进行合并，使用逗号分隔。
.as[String].first().getString(0).split(",")：将合并后的结果转换为字符串，并按逗号分割为列名的数组。

最终，nullColumns将包含所有值都为null或NA的列的列表。

请注意，这只是一种方法，可能不适用于所有情况。根据具体的数据和需求，可能需要进行适当的调整。

关于腾讯云相关产品和产品介绍链接地址，由于要求不能提及具体的云计算品牌商，无法提供相关链接。但是，腾讯云提供了一系列与Spark和Scala相关的云计算产品和服务，您可以在腾讯云官方网站上查找相关信息。

如何在spark scala Dataframe中找到所有值都为null或NA值的列的列表？

如何在spark scala Dataframe中找到所有值都为null或NA值的列名列表？ val df

浏览 28提问于2019-07-16得票数 1

回答已采纳

1回答

如何自动创建StructType以将RDD传递给DataFrame

、、、

为此，我将RDD传递给DataFrame，然后使用一个结构将DataFrame保存为一个拼花文件： val newDF = sqlContext.createDataFrame(filtered, aStruct) 问题是如何为所有列自动创建aStruct，假设所有列都是StringType？另外，null

浏览 3提问于2016-11-15得票数 6

回答已采纳

4回答

如何使用Java中的spark将数据数据中的特定值替换为空值？

、

我正在努力提高Logistic回归算法在Spark中使用Java实现的准确性。为此，我试图用该列最常见的值替换列中的空值或无效值。例如：-a |a1a |a2b |a2c |d |c1 在本例中，我将将列"Name“中的所有空值</em

浏览 0提问于2017-06-21得票数 27

回答已采纳

2回答

在DataFrame API中将所有NaNs替换为null

、、

我有一个包含许多双列(和/或浮动)列的dataframe，这些列确实包含NaNs。我想用null替换所有的NaNs (即Float.NaN和Double.NaN)。例如，对于单个列的x，我可以这样做。val newDf = df.withColumn("x", when($"x".isNaN,lit(null)).otherwise($"x")) 这是可行的

浏览 4提问于2017-05-08得票数 2

回答已采纳

3回答

将不符合模式的行放入spark中

、、、、

当前，我的表的架构是： |-- product_id: integer (nullable = true) |-- department_id: string (nullable = true) 我想在上面的表上应用下面的模式，并删除不遵循以下模式的所有行

浏览 6提问于2020-05-13得票数 2

回答已采纳

1回答

在java中使用Apache-Spark在Dataset<Row>中使用空字符串填充空值

、

我已经检查了下面的问题，它给出了python或scala的解决方案。和for java的方法是不同的。How to replace null values with a specific value in Dataframe using spark in Java?我有一个数据集Dataset<Row> ds，它是我通过读取拼图文件创建的。因此，所有列值都是字符串。其中

浏览 70提问于2019-05-06得票数 1

回答已采纳

1回答

在该行的任何列中选择至少一个空或空的行。

、

从一个dataframe中，我想创建一个新的dataframe，其中任何列中至少有一个值为null或空，在Spark1.5/ scala中。我正在尝试编写一个通用函数来创建这个新的dataframe。在这里，我传递数据文件和列列表，并创建记录。谢谢

浏览 4提问于2017-07-25得票数 4

回答已采纳

1回答

Spark如何计算字符串列的均值和stddev

370002|如果我不指定inferSchema，那么所有列都被视为字符串scala> val dataNoSchema = spark.read.option("header", "true").csv("./data/flight-data/csv/2015-summary.csv"

浏览 0提问于2019-02-03得票数 1

2回答

在用Nulls维护架构的同时激发GroupBy

、、、、

我有一个具有多个JSON对象的文件，其模式如下：对于A的属性值从不为null；但是，只有一个B, C,或D也可以是非空的|null|null||[..]|null|null|[..]|我试图按A对数据

浏览 0提问于2018-03-27得票数 0

回答已采纳

1回答

Spark DataFrame Scala中的na.fill

、、

我使用的是Spark/Scala，我想用基于列类型的默认值填充DataFrame中的空值。类似于fill(valueMap: Map[String, Any]) df.na<

浏览 3提问于2016-08-30得票数 2

0回答

Spark dataframe过滤空值和空格

、

我有一个spark dataframe，需要为它过滤特定列的空值和空格。1 abc3 null5 def 我想要应用一个过滤器来过滤掉那些col2为nulls或空白的记录。版本: Spark1.6

浏览 16提问于2016-12-31得票数 3

回答已采纳

3回答

第一个也是最后一个方法: scala，spark

、

在Pyspark中，我们有:第一个()函数返回列中的第一个元素，当ignoreNulls设置为True时，它返回第一个非空元素，()函数返回列中的最后一个元素，当ignoreNulls设置为True时，我想知道，我们是否有相同的scala方法。提前谢谢你。

浏览 21提问于2022-10-10得票数 0

回答已采纳

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

、、、

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列

浏览 4提问于2016-10-10得票数 7

回答已采纳

2回答

如何将dataframe中的空值填充到uuid？

、、、、

在一个列中有一个带有空值的dataframe (并非全部为空)，它需要用uuid填充空值，有方法吗？null)).toDF("field","field2","values")我试过这样做，但是"

浏览 3提问于2016-12-26得票数 1

回答已采纳

3回答

如何在Pyspark中替换dataframe的所有空值

、、

我在pyspark中有一个超过300列的数据框架。在这些列中，有一些列的值为null。例如：null null234 null365 187当我想对column_1求和时，我得到的结果是一个空值，而不是

浏览 1提问于2017-02-18得票数 56

回答已采纳

1回答

星星之火:为MergeSchema字段选择默认值

、

我有一个有这样一个旧模式的地板：| Tom | Male | 30 || name | gender | age |office |val mergedDF = spark.read.option("mergeSchema", "true").parquet("data/test_table") 但是，在读取这些旧地板文件时，我得到了以下

浏览 3提问于2020-10-22得票数 0

回答已采纳

2回答

当结构中的所有值都为空时，如何为Scala* spark中的结构赋空？*

、、

我有一个spark scala数据框架，其中有一个列是一个结构，当结构中的所有值都为空时，我希望使用null而不是对象。

浏览 23提问于2020-11-14得票数 1

回答已采纳

1回答

Spark的.NET正向填充

、、、、

我正在研究.NET (C#)中的Spark DataFrame的窗口函数。我有一个包含年、月、日、小时、分钟、ID、类型和值的DataFrame df： | 2021 | 3 | 4 | 8 | 9 | 87 | Type1 | 380.5 |中找到了使用Windows和Lag函数的解决方案，但我不确定如何在C#中做到这一点。在scala中，该窗口的定义

浏览 24提问于2021-03-23得票数 3

回答已采纳

1回答

scala中一些$字符串的输出是什么？

我正在使用spark和scala，并在在线文档中看到了以下内容$"name“在这里是什么意思？

浏览 4提问于2017-02-23得票数 14

回答已采纳

3回答

从sqoop导入为拼图的表在spark中不起作用

、、

但是当我试图从Spark shell加载它时，它抛出了错误，如下所示：scala.collection.parallel.CompositeThrowableParquetMetadataConverter.java:520)

浏览 2提问于2015-04-15得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在spark scala Dataframe中找到所有值都为null或NA值的列的列表？

相关·内容

如何在spark scala Dataframe中找到所有值都为null或NA值的列的列表？

如何自动创建StructType以将RDD传递给DataFrame

如何使用Java中的spark将数据数据中的特定值替换为空值？

在DataFrame API中将所有NaNs替换为null

将不符合模式的行放入spark中

在java中使用Apache-Spark在Dataset<Row>中使用空字符串填充空值

在该行的任何列中选择至少一个空或空的行。

Spark如何计算字符串列的均值和stddev

在用Nulls维护架构的同时激发GroupBy

Spark DataFrame Scala中的na.fill

Spark dataframe过滤空值和空格

第一个也是最后一个方法: scala，spark

将StringType列添加到现有的DataFrame中，然后应用默认值

如何将dataframe中的空值填充到uuid？

如何在Pyspark中替换dataframe的所有空值

星星之火:为MergeSchema字段选择默认值

当结构中的所有值都为空时，如何为Scala* spark中的结构赋空？*

Spark的.NET正向填充

scala中一些$字符串的输出是什么？

从sqoop导入为拼图的表在spark中不起作用

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐