从单个列中的Pyspark Dataframe中删除空值

文章/答案/技术大牛

发布

1回答

、、、

浏览 7提问于2020-06-16得票数 1

2回答

如何在PySpark中获得数据类型为时间戳的列的null/nan计数？

、、、

我有一个名为 createdtime 的列，其数据类型为时间戳，我希望找到创建时间为空或空或nan的行数。from pyspark.sql.functions import col,isnan,when,count df_Columns=["

浏览 5提问于2022-06-26得票数 0

1回答

Pyspark使用.filter()过滤掉空列表

、、、

我有一个pyspark dataframe，其中一列填充了列表，要么包含条目，要么只包含空列表。我想高效地过滤掉所有包含空列表的行。import pyspark.sql.functions as sf: java.lang.RuntimeException: Unsupported literal type class 也许我可以检查列表的长度，并强

浏览 17提问于2017-02-24得票数 7

回答已采纳

1回答

在Dataframe中，如何根据条件从行中删除列？

、

当该行上的列值为零时，我想从行中删除该列。我不想从Dataframe中删除该列。仅当列值为零时，我才从该特定行中删除该列。我用的是Pyspark。

浏览 19提问于2020-04-09得票数 0

2回答

如何在pyspark dataframe中返回空值的行？

、、

我正在尝试从pyspark dataframe中获取空值的行。在pandas中，我可以在数据帧上使用isnull()来实现这一点：但在PySpark的情况下，当我运行以下命令时，它显示Attributeerror：AttributeError：'DataFrame‘对象没有属

浏览 25提问于2018-11-27得票数 5

2回答

在Pyspark中将任意数量的列合并为Array类型的新列

、

我有一个pyspark dataframe，它包含N个包含整数的列。某些字段也可能为空。f为前缀的列组合成一个新列中的pyspark数组。features_filtered = features.select(F.concat(* features.columns[1:]).alias('combined')) 它返回null (我假设是由于初始dataframe</e

浏览 67提问于2020-06-18得票数 1

回答已采纳

1回答

pyspark中的to_json包含空值，但我需要空值作为空

、、、、

我正在使用pyspark中的to_json将dataframe中的结构列转换为json列，但是在json中忽略了少数结构字段中的空值，我不希望这些空值被忽略。

浏览 6提问于2020-10-14得票数 0

2回答

如何创建空的考拉df

、

我正在尝试使用以下命令创建空的考拉DataFrame但是我得到了以下错误我也尝试了执行命令，但发现了类似的错误 df = ks.DataFrame(columns=['col1

浏览 3提问于2020-08-24得票数 0

1回答

如何删除pyspark中的常量列，而不是具有空值和一个其他值的列？

、、

例如：How to automatically drop constant columns in pyspark?但我发现，没有一个答案解决了这个问题，即countDistinct()不将空值视为不同的值。因此，只有两个结果null和none NULL值的列也将被删除。一个丑陋的解决方案是将spark dataframe中的所有null值替换为您

浏览 23提问于2021-04-01得票数 1

回答已采纳

5回答

根据某些列中的空值删除行(pandas)

、

我知道如何从包含所有空值或单个空值的DataFrame中删除一行，但是您能根据指定的一组列的空值删除一行吗？例如，假设我正在处理包含地理信息(城市、纬度和经度)以及许多其他字段的数据。我希望保留至少包含城市值或LAT值和long值的行，但删除</e

浏览 2提问于2017-02-09得票数 6

2回答

从列表中添加列的pySpark

、、、、

我有一个数据文件名，并希望根据列表中的值向它添加列。我的值列表将从3-50个值变化。我是pySpark新手，我试图将这些值作为新列(空)附加到我的df中。我看到了关于如何将一列添加到dataframe中的推荐代码，而不是从列表中添加多列<

浏览 2提问于2020-05-12得票数 1

回答已采纳

1回答

如何根据另一个数据填充空

、

我有两个列dataframe和一个列包含一些空，例如。df1 s.t来填写df1中的空。我首先从df2创建一个查找字典，然后使用df1上的apply来填充空值。但是我并不确定在pyspark中使用什么函数，我看到的大多数替换null都是基于简单的条件，例如，将所有的空值填充为某个列的一个常量值

浏览 2提问于2018-03-14得票数 1

回答已采纳

1回答

pyspark.sql.functions -计数以考虑空值：

、

我试图让pyspark.sql.functions.count()函数或pyspark.sql.functions.count_distinct()函数在计算列中不同元素的数量时考虑null值。accounts| null|+---+------+-----------+------+ 现在，如果我运行以下代码来计算每个列中不同值的数量从</

浏览 12提问于2022-06-07得票数 0

1回答

火花放电应用替换

、、、、

我有一个包含许多列的CSV文件，并且我正在尝试删除我从CSV创建的dataframe中的所有双引号(")。目前，我的代码如下 return x.replace('"', '') newDf为了测试apply函数，我在每个值

浏览 3提问于2022-06-06得票数 0

1回答

PySpark比较空地图文字

、、、

我想在PySpark DataFrame中删除行，其中某个列包含一个空映射。我该怎么做？我似乎不能声明一个类型化的空MapType来比较我的列。我已经看到，在Scala中，您可以使用typedLit，但是在PySpark中似乎没有类似的东西。我还尝试过使用lit(...)并将其转换为struct<string,int>，但我没有为lit()找到可接受<

浏览 2提问于2019-09-29得票数 2

回答已采纳

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所有的代码都需要当前

浏览 16提问于2020-12-30得票数 2

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

、、、、

我想使用PySpark (Spark1.6.2)对存在于Hive表中的数值数据执行主成分分析(PCA)。= hiveContext.sql("SELECT * FROM my_table")<class 'pyspark.sql.dataframe.DataFrame有一篇优秀的StackOverflow文章展示了如何在PySpark：<e

浏览 1提问于2016-10-06得票数 4

回答已采纳

1回答

移除下一列中的空值和移位值

我需要将Python脚本转换为Pyspark，这对我来说是一项艰巨的任务。ROW_2 2 | pig | null | cat | null 我的目标是cow

浏览 2提问于2020-08-10得票数 2

回答已采纳

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame 注意:我之所以使用pyspark列，是因为我从我使用的库(远大期望)中获得了它的输入。replace the above logic with a map fun

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

检查列是否全部为空

、、

我想检查该列中的所有值是否都为空，如果为空，则从数据帧中删除该列。我所做的是检查具有非空值的列的计数，如果count等于0，则删除该列，但在pyspark中这似乎是一个开销很大的操作

浏览 0提问于2019-08-09得票数 0

点击加载更多