删除pyspark dataframe中值为字符串的行

文章/答案/技术大牛

发布

1回答

、、、

我正在尝试使用Apache Spark对存储在MongoDB数据库中的地理空间数据使用KMeans。数据格式如下：代码如下，其中inputdfinputdf)model = kmeans.fit(inputdf.select("features")) 数据集中似乎有一些空字符串com.mon

浏览 2提问于2019-11-13得票数 0

回答已采纳

2回答

从pandas dataframe中删除句子长度超过特定词长的行

、、、

我想从pandas dataframe中删除行，该数据帧包含长度大于所需长度的特定列中的字符串。输入帧： X Y1 An apple3 I like to watch movie 现在，假设我想从dataframe中删除包含长度大于或等于4的单词字符串的行。所需的</em

浏览 144提问于2019-06-12得票数 9

回答已采纳

3回答

在保留原始文件的条件下从Pandas dataFrame中删除重复项

、、

假设我有以下DataFrame： 1 | Ms 2 | Ms我想删除关于列A的重复行，并且想要保留列B中值为'PhD‘的行作为原始行，如果我找不到'PhD'，我想保留列B中值为'Bs’的行。

浏览 4提问于2015-10-10得票数 12

回答已采纳

1回答

如何使用Python Dataframe* API在Apache Spark中找到中位数？*

、、、

Pyspark API提供了除median之外的许多聚合函数。Spark 2附带了approxQuantile，它给出了近似的分位数，但精确的中位数计算起来非常昂贵。对于Spark Dataframe中的一列值，是否有更多的Pyspark方法来计算中值？

浏览 3提问于2016-08-03得票数 3

回答已采纳

1回答

在Dataframe中，如何根据条件从行中删除列？

、

当该行上的列值为零时，我想从行中删除该列。我不想从Dataframe中删除该列。仅当列值为零时，我才从该特定行中删除该列。我用的是Pyspark。

浏览 19提问于2020-04-09得票数 0

0回答

提取与Spark Dataframe* (Pyspark)中的特定条件匹配的第一个“行集合”*

、、、

Unidentified9 | UseCase211 | Unidentified我必须提取列UseCase中值为Unidentified的前4行，并对它们进行进一步处理。在这一点上，我不想获得中间和最后两行的Unidentified值。我希望避免使用ID列，因为它们不是固定的。以上数据只是一个样本。当我使用映射函数(在将其转换为RDD之后)或UDF时，我在输出

浏览 5提问于2016-12-15得票数 1

2回答

从PySpark* DataFrame列中删除元素*

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如：[1,2][2,3] 上面是一个玩具例子，因为我的实际DataFrame有一个最大长度为52个唯一ints的

浏览 9提问于2017-01-12得票数 1

回答已采纳

2回答

如何通过检查条件来删除Pandas DataFrame中的副本？

、、

我有一个dataFrame：-------- 1 | 40 2 | 10 我希望通过检查列'ID‘中的重复条目来删除重复行，并保留a列中值为10的行。我希望我的df看起来像-------- 2 | 10

浏览 2提问于2015-10-01得票数 4

回答已采纳

1回答

删除pandas中缺少值的行

、

我有一个pandas dataframe，其中一列有几个缺失值。我想删除此列中值为?的行。我试过使用像这样的东西 df = df[np.isfinite(df[:,4])]

浏览 2提问于2016-09-24得票数 1

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所有的代码都需要当前的</em

浏览 16提问于2020-12-30得票数 2

1回答

从dataframe中删除行，其中值为‘n/a’

、、

1.8 4017, 这是我的一列的值计数如你所见，第二个最常见的是“n/a”。我想从我的数据集中删除所有行，其中该列中的值是‘n/a’。

浏览 0提问于2018-05-16得票数 0

3回答

根据多个先前的行/列中的值删除dataframe中的行

、

b c 09 b c 111 b c 013 a d 015 a d 0 我想删除前一列z中值相同的行x和y中值为1的行。例如，对于第10行，我希望搜索行1:9中x= "b“、y= "c”和z=1的行。如果在第1:9行中存在这样

浏览 2提问于2017-04-28得票数 4

回答已采纳

1回答

用户定义对窗口中所有行的函数

、、

我有一组带有一组字符串特征ids的时间戳位置数据，这些ids被附加到每个位置。我想使用spark中的一个窗口将当前N行和下一个N行ala的所有这些特征id字符串的数组连接起来：from pyspark.sql.window import WindowwindowSpec = Window \ .partition

浏览 2提问于2017-04-13得票数 1

回答已采纳

1回答

左反团员

、、、

我有一个dataframe，它有两个列a和b，其中b列中的值是a列中值的a子集。，其中anti_b列中的值是来自a列的任何值，这样a!=anti_b和行(a,anti_b)就不会出现在原始的数据格式中。** df = spark.createDataFrame(pandas.DataFram

浏览 2提问于2019-11-18得票数 0

1回答

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

、、、、

我继承了一个修改pyspark dataframe中一些字符串的程序。其中一个步骤涉及从字符串中的一些单词中删除双/三/等字母，以及一个额外的例外列表，即使它们有重复的字母也会保持不变。目前，这是通过将dataframe转换为具有udf的pandas，然后在读回pyspark之前对生成的pandas dataframe中<em

浏览 7提问于2021-03-15得票数 0

回答已采纳

1回答

将Dataframe激发到StringType

、、、

在PySpark中，如何将Dataframe转换为普通字符串？我将PySpark与Kafka一起使用，而不是硬编码代理名称，而是在PySpark中参数化了Kafka broker名称。这些变量为带有字符串的Dataframe类型。错误：只能将字符串(不是Dataframe

浏览 0提问于2021-03-05得票数 0

2回答

Pandas groupby获取其中行匹配条件的组的第一个元素

、、、

我有一个dataframe，其中一些行除了一列之外，所有的值都是相同的。我希望删除重复的行，只保留该列中值为1的每个组中的第一行，或者如果该列中没有值为1，则保留任意一行。示例数据： '

浏览 2提问于2018-02-14得票数 1

回答已采纳

3回答

根据值从dataframe中删除行，忽略NAs

、、

我有一个基于特定列中值的数据，我想从其中删除行。例如，dataframe显示如下所示：1 1 2 3 03 6 4 0 1我希望删除d列中值大于0的所有行。df$d > 0, ] 但这似乎起到了删除d列中带有安娜值的所有值的效果。我假设需要一个na.rm =

浏览 0提问于2019-01-17得票数 0

回答已采纳

2回答

如何删除星火表列中的空白

、、、、

我想从特定列(Purch_location)中的所有值中删除空格。我使用的是spark表，而不是dataframe或SQL表(但如果需要，我可以使用dataframe或SQL表)。下面是我的星火表的生成方式：cols = dataset.columns+----------+----导入regexp_replace from pyspark</e

浏览 6提问于2017-12-03得票数 2

2回答

将数据保存到HDFS的格式是什么？

、、、

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

点击加载更多