从PySpark DataFrame中删除na行索引

文章/答案/技术大牛

发布

1回答

、

我无法删除第一行。

浏览 3提问于2020-03-12得票数 0

回答已采纳

2回答

使用PySpark移除至少具有1NA的任何行

、、

我有一个电火花数据，我想删除任何一行至少有一个NA。如何对dataframe的所有列执行相同的操作？可复制示例from pyspark.sql import SparkSessionfrom pyspark.sql.functions") \ # Initiating <em

浏览 14提问于2022-10-05得票数 1

回答已采纳

1回答

如何在Pyspark Dataframe中的特定索引中添加行或替换？

、、、

我想将此列表L1作为行添加到第一个索引中，如何在Pyspark Dataframe中的特定索引中追加一行？L1=['na',5.6,2.4] ('nr',4.4,2.5),data_schema=[StructField

浏览 30提问于2021-01-24得票数 0

回答已采纳

1回答

按列值(文本)在Pandas DataFrame中放置行

、、、、

我希望通过使用各自的文本值从dataframe中删除一行来返回新的dataframe。并且只保留空白(或空白)。到目前为止，我只能找到按索引或完整列删除NA、NULLS的方法。

浏览 2提问于2022-09-20得票数 0

1回答

我想使用patsy的dmatrix函数来生成一个设计矩阵，其中保留了带有NaN值的行。例如，下面的代码将返回一个四行的设计矩阵，这是我们通常需要的。但是，在本例中，我希望dmatrix返回一个有五行的矩阵，其中第一行将包含一个NaN值。import numpy as npfrom patsy import dmatrix df = pd.DataFrame({'x1': np.arange(5), 'x2'

浏览 3提问于2018-08-01得票数 1

回答已采纳

3回答

如何使熊猫的str.contains搜索速度更快

、、

我在400万行的dataframe中搜索子字符串或多个子字符串。df[df.col.str.contains('Donald',case=True,na=False)]df[df.col.str.contains('Donald|Trump|Dump',case=True,na=False)]df = pd.DataFrame({'col

浏览 1提问于2016-06-18得票数 14

回答已采纳

1回答

在Dataframe中，如何根据条件从行中删除列？

、

当该行上的列值为零时，我想从行中删除该列。我不想从Dataframe中删除该列。仅当列值为零时，我才从该特定行中删除该列。我用的是Pyspark。

浏览 19提问于2020-04-09得票数 0

2回答

仅在R中的特定行索引范围内删除列中的重复值

、、

我有一个测试数据df，我想从它中删除Hits列中的重复值，而不是与重复值关联的行。但是，条件是只有在行索引的某些特定范围内才能执行下降。, NA, NA, 0.001, 0.001, 0.002, 0.003, 0.003, NA, NA, NA, 0.023, 0.341, 0.341, 0.569), Category2 = c(NA, NA, NA, 1

浏览 3提问于2022-01-03得票数 2

回答已采纳

8回答

跳过索引列中的NA行

我有一个dataframe，它有一个值为TRUE和NA的列。我想在df中添加一个索引列，它用TRUE对所有行进行索引，但只用NA跳过所有行，而不删除它们。如下所示：TRUE 1NA NATRUE 3i = 1:nrow(df) df$ID <- ifelse(df

浏览 1提问于2020-02-18得票数 3

7回答

同时删除数据帧的第一行和最后一行，直到到达没有安娜的行为止。

、、、、

我有一个包含NA值的dataframe，我希望删除一些具有NA的行(即不完整的情况)。但是，我只想在dataframe的开头和结尾删除行。因此，我希望保留不位于dataframe的第一行或最后一行的任何具有NA的行。在不使用行索引的情况下，用NA同时删除这些行的最有效方法是什

浏览 14提问于2022-04-07得票数 1

回答已采纳

3回答

删除最后一行数据帧，直到到达没有安娜的行为止。

、、

我有一个包含NA值的dataframe，我希望删除一些具有NA的行(即不完整的情况)。但是，我只想删除数据帧末尾的行。因此，我希望保留任何不位于dataframe末尾的NA行。在不使用行索引的情况下，删除带有NA的结束行的最有效方法是什么？数据 df <- structure(list(var1 = 1:15, var2

浏览 6提问于2022-04-05得票数 1

回答已采纳

1回答

如何以编程方式应用多个where条件

、、

df = spark.createDataFrame( ('1','NA','9'), ('6','4','2'), ('7','N&#x

浏览 11提问于2021-10-19得票数 0

2回答

Python dataframe删除前n行并保留moveup

、

我有一个2500行的数据帧。我正在尝试删除前n行，并在不更改索引的情况下向上移动剩余行。我举了一个我的问题和我想要的东西的例子 df = 10 10.512 30.514 50.516 70.5 在上面，我想删除顶部的两行，并在不干扰索引的情况下移动剩余的行。就像，一行代码？

浏览 124提问于2020-04-19得票数 1

2回答

如果列包含Pandas中的任何字符串值，则从dataframe中删除值。

、、

我希望从包含浮点dtype列字符串值的dataframe中删除行。例如，如果我有一个amount字段，我希望删除dataframe中的所有行，这些行在amount字段中包含一个值"NA“。到目前为止我已经试过以下几种方法-data = data[~data['gross'].isin(to_dro

浏览 5提问于2017-08-13得票数 2

回答已采纳

1回答

如何从Python中选择某些列？

、、、、

我试图只从dataframe中选择某些列，删除na行。我还应该在删除行后重置行索引。HousingData.select("CRIM").show("CRIM")干杯!

浏览 4提问于2022-10-09得票数 -1

回答已采纳

2回答

如何在Pandas中选择丢失数据超过一定数量的行/列？

、

我正在尝试学习如何选择丢失数据超过一定数量的行或列。使用value_counts，我可以找到满足条件的列，但是我不知道如何检索int形式的索引，以便可以访问数据帧并从数据帧中删除相应的列。如何在int中转换/检索索引？还有，有没有更简单的方法来做到这一点呢？df3 = pandas.DataFrame([[1,6.5,3],[1,'NA','NA'],[3,'NA'

浏览 3提问于2016-11-17得票数 2

3回答

对于每一行，如何返回索引，使在此索引之后不存在na？

、、

T1 T2 T3 T4 T5 1 1 NA 1 NA 1 1 NA 1 NA所以第一行的结果应该是从T1到T2 (索引1到index2)。第2行的结果应该是T3 - T5，第3行<

浏览 9提问于2022-11-19得票数 -1

1回答

为什么我得到了TypeError:不能在使用_thread.RLock时选择'_thread.RLock‘对象

、、、、

, 1)文件"/private/var/www/http/hawk-scripts/hawk_etl/scripts/spark_rds_to_parquet.py"，第46行，在process() "/private/var/www/http/hawk-scripts/hawk_etl/scripts/spark_rds_to_parq

浏览 2提问于2022-05-11得票数 0

回答已采纳

1回答

从星星之火数据中的列表中提取值，而不转换为熊猫

、、

我非常绿色的火花，所以我把它转换成一个熊猫DataFrame，然后使用地图功能，我提取所需的元素。问题是，数据是巨大的，因此这种方法是不可扩展的。让我花时间的是toPandas()命令。是否有从每一行访问列表中的值的选项？谢谢!

浏览 5提问于2021-12-09得票数 1

回答已采纳

1回答

Pyspark -> StringIndexer:用数字替换“无”值

、

(self.rawData, columnName) @staticmethod indexer = indexer.fit(dataFrame) dataFrame = indexer.transform(<

浏览 1提问于2018-04-29得票数 0

点击加载更多