如何从pyspark中的dataframe列中选择不同的非空值

文章/答案/技术大牛

发布

1回答

、

如何从py-spark中的dataframe列中选择不同的非空值。

浏览 30提问于2021-07-03得票数 0

1回答

pyspark.sql.functions -计数以考虑空值：

、

我试图让pyspark.sql.functions.count()函数或pyspark.sql.functions.count_distinct()函数在计算列中不同元素的数量时考虑null值。accounts| null|+---+------+-----------+------+ 现在，如果我运行以下代码来计算每个列中不同值<

浏览 12提问于2022-06-07得票数 0

2回答

从PySpark DataFrame中的非空列中选择值

、、、、

浏览 5提问于2016-03-23得票数 5

回答已采纳

1回答

在Pyspark中计算数据帧中的空值和非空值

、、

我在Pyspark中有一个dataframe，我想在其上计算列中的空值和这些列的不同值，即非空值这是我拥有的数据帧 trans_date transaction_id transaction_id1(*(F.sum(F.col(c).isNull().cast("int")).alias(c) for c in c

浏览 74提问于2019-05-22得票数 0

回答已采纳

1回答

PySpark:获取数据中每个列的第一个非空值。

、、、、

我正在处理不同的星火DataFrames，它们在许多列中都有大量的空值。我希望从每个列中获取任何一个非空值，以查看该值是否可以转换为datetime。我尝试执行df.na.drop().first()，希望它将删除所有带有空值的行，而在剩余的DataFrame中，我将只获得第

浏览 5提问于2017-05-09得票数 6

回答已采纳

2回答

如何键入星火DataFrame列？使用火花放电

、

我以以下方式创建了一个DataFrame：spark = SparkSession \ .getOrCreate() 我的DataFramestring (nullable = true) |-- Cabin: stri

浏览 3提问于2018-10-18得票数 0

回答已采纳

2回答

如何在pyspark dataframe中返回空值的行？

、、

我正在尝试从pyspark dataframe中获取空值的行。在pandas中，我可以在数据帧上使用isnull()来实现这一点：但在PySpark的情况下，当我运行以下命令时，它显示Attributeerror：AttributeError：'DataFrame‘对象没有属

浏览 25提问于2018-11-27得票数 5

2回答

从列表中添加列的pySpark

、、、、

我有一个数据文件名，并希望根据列表中的值向它添加列。我的值列表将从3-50个值变化。我是pySpark新手，我试图将这些值作为新列(空)附加到我的df中。我看到了关于如何将一列添加到dataframe中的推荐代码，而不是从列表中添加多<e

浏览 2提问于2020-05-12得票数 1

回答已采纳

1回答

具有数据帧查询的PySpark UDF函数？

、

我有另一种解决方案，但我更喜欢使用PySpark 2.3来实现它。| null09/01/2018 | 12 我希望通过查找过去最接近的值来替换ID空值，或者如果该值是空的，则向前看(如果它再次为空，则设置一个默认值)。我想象过用.withColumn添加一个新列，并使用一个UDF函数来查询数据帧本身。类似于伪代码

浏览 0提问于2019-02-02得票数 0

回答已采纳

3回答

将模式数据类型JSON混合到PySpark DataFrame

、、

我需要将JSON的列表转换为pySpark DataFrames。JSON都有相同的架构。问题是JSON中dicts的值条目有不同的数据类型。如果我使用df = spark.createDataFrame(json_list)从jsons中创建我的DataFrame，因为他无法正确地推断模式，所以pyspark“删除”了一些数据。PySpark决

浏览 23提问于2022-03-28得票数 0

回答已采纳

1回答

从pyspark中的多个列中选择非空值

、、、、

浏览 110提问于2021-08-21得票数 0

1回答

pyspark中的to_json包含空值，但我需要空值作为空

、、、、

我正在使用pyspark中的to_json将dataframe中的结构列转换为json列，但是在json中忽略了少数结构字段中的空值，我不希望这些空值被忽略。

浏览 6提问于2020-10-14得票数 0

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所

浏览 16提问于2020-12-30得票数 2

2回答

如何在PySpark中获得数据类型为时间戳的列的null/nan计数？

、、、

我有一个名为 createdtime 的列，其数据类型为时间戳，我希望找到创建时间为空或空或nan的行数。from pyspark.sql.functions import col,isnan,when,count df_Columns=["

浏览 5提问于2022-06-26得票数 0

2回答

如何创建空的考拉df

、

我正在尝试使用以下命令创建空的考拉DataFrame但是我得到了以下错误我也尝试了执行命令，但发现了类似的错误 df = ks.DataFrame(columns=['col1

浏览 3提问于2020-08-24得票数 0

1回答

如何迭代大型Pyspark* Dataframe中列的不同值？.distinct().collect()引发大型任务警告*

、

我正在尝试迭代一个大型Pyspark Dataframe列中的所有不同值。当我尝试使用.distinct().collect()执行此操作时，即使只有两个不同的值，它也会发出“任务太大”警告。下面是一些示例代码： spark = SparkSession.builder.appName('Basics')

浏览 1提问于2020-01-14得票数 1

1回答

仅保存pandas df中的非空条目值和列号，每行仅保存一个非空值

、、

我有一个包含许多列的pandas dataframe，其中大多数列都是空的，但是对于每一行，总是有且只有一列的值是字符串。我在dataframe中创建了一个新列，它选择了唯一的非空值：for col in range(1,100) : da

浏览 0提问于2017-06-16得票数 1

2回答

列的值为null，并在中进行交换。

、、、、

我正在使用pyspark==2.3.1。我用熊猫对数据进行了数据预处理，现在我想把我的预处理功能转换成熊猫的火花放电。但是，当使用pyspark读取数据CSV文件时，许多值将变为空列，而该列实际上有一些值。如果我试图对这个dataframe执行任何操作，那么它将与其他列交换列的值。我也尝试过不同版本的火花放电。谢谢来源于火花放

浏览 5提问于2022-02-16得票数 0

回答已采纳

1回答

过滤来自pyspark数据帧的负值

、、

我有一个>40列的spark dataframe，其中的值是混合值。如何一次只从所有列中选择正值并过滤掉负值？我访问了[ ]，但没有一个解决方案有效。我想将朴素贝叶斯拟合到pyspark中，其中一个假设是所有特征都必须是积极的。如何通过仅从我的特征中选择正值来准备相同的数据？

浏览 2提问于2018-03-19得票数 1

1回答

如何删除pyspark中的常量列，而不是具有空值和一个其他值的列？

、、

例如：How to automatically drop constant columns in pyspark?但我发现，没有一个答案解决了这个问题，即countDistinct()不将空值视为不同的值。因此，只有两个结果null和none NULL值的列也将被删除。一个丑陋的解决方案是将spark dataframe中的所有null值替换为您

浏览 23提问于2021-04-01得票数 1

回答已采纳

点击加载更多