PySpark:过滤掉数据框中列值多次出现的行_如何根据列中的值使行多次出现？_显示特定列中的任意值多次出现的行 - 腾讯云开发者社区

python、pyspark

给定一个包含两列的PySpark数据帧，我希望将数据集拆分为两个数据帧:一个是ColA和ColB的组合是唯一的，另一个是不是唯一的。ColCDoesntMatter1 | 3 | 31 | 2 | 62 | 3 | 9 唯一的A/B配对是： 1-3 2-3 非唯一

浏览 8提问于2019-02-22得票数 1

回答已采纳

1回答

使用Apache光束根据计数进行过滤

google-cloud-dataflow、apache-beam、dataflow

我正在使用Dataflow和Apache Beam处理一个数据集，并将结果存储在一个有两列的无头csv文件中，如下所示： A1,aA3,bA5,c ...我想根据以下两个条件过滤掉某些条目： 1-在第二列中，如果某个值出现的次数小于N，则删除所有此类行。例如，如果N=10和c只出现了7次，那么我希望所有这些行都被过滤掉。2-在第二列

浏览 55提问于2020-06-12得票数 1

1回答

如何转换pyspark* dataframe列的值？*

python、sql、apache-spark、pyspark、data-science

我在pyspark数据框中有一列表示电子设备的年龄，这些值是以毫秒为单位给出的。有没有一种简单的方法将该列的值转换为年份？我不是很精通Spark。编辑:我知道你可以很容易地用基本的数学将毫秒转换为年，我正在尝试获取pyspark数据帧的一列，并迭代它，并将所有列值转换为不同<

浏览 17提问于2021-05-20得票数 1

1回答

使用PySpark* sql函数*

python、pyspark

此函数：lg = F.log(5.2)返回： at java.lang.Thread.run(Thread.java:745) 文档指向在数据帧中使用函数df.select(log(df.age).alias('e')).rdd.map(lambda l: str(l.

浏览 8提问于2017-03-07得票数 0

回答已采纳

1回答

是否只读取符合条件的.parquet文件的特定行？

python、pyspark、pyarrow

我正在处理一个充满.parquet文件的文件系统。其中一列'id‘唯一地标识了一台机器。我能够使用pyspark打开某个目录路径中的所有.parquet文件，然后从'id‘列创建一组值([])。我想打开所有其他文件中的所有其他行，其中'id‘与先前计算的集合中的一个值相匹配。我可以通过pyspark</em

浏览 27提问于2019-10-19得票数 1

回答已采纳

1回答

排除R中具有模式匹配的行

假设我有一个列很少的数据框。如何过滤掉(从其中一列中)具有模式加入值的行列中的几个值是IADDR、IADDX、IADDV 我试过filter(!

浏览 2提问于2020-10-30得票数 0

1回答

pyspark使用'in‘子句将一个RDD馈送到另一个RDD

pyspark、spark-dataframe、rdd、pyspark-sql

我有一个pyspark RDD (myRDD)，它是一个可变长度的ID列表，比如我有一个包含列ID和value的pyspark数据框架(myDF)。myDF.select(F.collect_set("

浏览 26提问于2017-08-24得票数 0

3回答

如何根据类别计数过滤数据帧

r、filtering

如何对数据帧进行子集，以便只包含包含值在其他行中出现一定次数的列的行。例如，如果我有一列标签为“食物”的列，我如何过滤掉在整个数据帧中出现少于5次的食物的所有行？

浏览 0提问于2011-07-23得票数 6

回答已采纳

1回答

如何在pandas数据帧中删除所有重复出现的项或获取唯一值？

python、pandas、numpy、dataframe

我有一个具有多次出现特定值的pandas数据框。我希望删除所有重复的值或替换为NaN，并最终获得具有任意数量的唯一值的列的名称。Pandas drop_duplicates函数只删除有重复值的行，但我想删除数据框中的值&#

浏览 56提问于2019-04-02得票数 1

回答已采纳

1回答

Scala :根据预定义的Array Spark 1.6中存在的列值过滤DF行

scala、dataframe、apache-spark、pyspark、user-defined-functions

我的问题和很相似| 15| muskmelon|+--------+-----------+| 6| grapes||

浏览 7提问于2020-08-15得票数 0

2回答

如何在删除重复行时将一个或多个值保留在一列中？

r、dataframe

我正在尝试删除数据框的一列中具有重复值的行。我希望确保该列中的所有现有值都被表示出来，如果另一列中的值没有重复且不丢失，则多次出现；如果另一列中的值全部丢失，则只出现一次。ideal &

浏览 0提问于2020-07-01得票数 1

1回答

过滤来自pyspark数据帧的负值

dataframe、filter、pyspark

我有一个>40列的spark dataframe，其中的值是混合值。如何一次只从所有列中选择正值并过滤掉负值？我访问了[ ]，但没有一个解决方案有效。我想将朴素贝叶斯拟合到pyspark中，其中一个假设是所有特征都必须是积极的。如何通过仅从我的特征中选择正值来准备相同的数据？

浏览 2提问于2018-03-19得票数 1

1回答

如何筛选出满为空或列表之和等于0的列表？

filter、pyspark、apache-spark-sql

在pyspark中，我们可以很容易地过滤出特定列中的单个空值，方法如下：但是，在我的例子中，列中的值变成了[null,null,null]或[0,0,0]，我想知道如何过滤掉这两种情况。

浏览 4提问于2021-07-07得票数 0

回答已采纳

1回答

如何选择Pyspark列并将其作为新行添加到数据框中？

apache-spark、pyspark、pyspark-sql、pyspark-dataframes

我想提取一列，并将其值作为新行附加到数据框中。例如，如果我有一个这样的数据框： ---------------------------------------------------------------------------------------------------------------------

浏览 18提问于2019-12-29得票数 0

回答已采纳

2回答

如何按索引位置筛选出pandas数据框中间的行

python、pandas

我有一个包含20,000个观测值的熊猫数据框架。我只想过滤掉观察值879。我尝试了以下几种方法： df.iloc-879，不过，这只产生了列名。如何在数据框中间删除特定的一列？建议如下:如何从数据帧的单元格中获取值？它没有回答这个问题。它展示了如何基于列值过滤从单元格中提取一个值。我需要按索引位置进行过滤，并且只需要在<em

浏览 11提问于2020-06-18得票数 1

回答已采纳

1回答

Pyspark:如何使用UDF过滤表？

python、pyspark、filter

我有一个数据帧，我想根据一列过滤掉一些行。但我的条件相当复杂，需要一个单独的函数，这不是我可以在单个表达式或where子句中完成的事情。我的计划是根据是保留还是过滤掉该行来返回True或False：from pyspark.sql.function import'col1' \

浏览 0提问于2021-07-16得票数 0

1回答

在Pyspark中查找相关的文档名称

python、pyspark、pyspark-sql

我有一个包含两列(id，name)的数据框。名称列具有相关的名称。例如，术语，相关术语，相关行，行。我想在不同的行中找到相似的名字。我已经尝试了余弦相似度，但无法实现这一点。我已经使用pyspark计算了TF-IDF。寻找使用pyspark在不同行中获取相关名称的方法。

浏览 11提问于2018-02-23得票数 0

1回答

具有给定术语的文档的PySpark* HashingTF计数*

dataframe、pyspark、tf-idf

我有一个spark数据框，其中的" text“列有一些文本。我想要计算出现各种单词的行数-本质上是出现“术语”的“文档”的数量-以及相关的计数，如最频繁的单词，具有最频繁单词的行(或称为文档)。我正在使用来自pyspark.ml.feature的HashingTF。但是似乎找不到一种有效的方法来从输出中提取这些信息。H

浏览 25提问于2021-08-31得票数 0

回答已采纳

2回答

作为记录数据出现在Pyspark数据库中的列名

python-3.x、pyspark、databricks、databricks-sql

我从Kaggle (Covid Live.csv)下载了一个示例csv文件，表中的数据在可视化代码中打开时如下所示(原始CSV数据仅为部分数据)#,"Country,from pyspark.sql.types import * df1 = spark.read.format("c

浏览 9提问于2022-10-21得票数 0

1回答

如何在pyspark中对字符串numpy数组列进行筛选

python、apache-spark、pyspark、apache-spark-sql

我有一张火花放电数据foo = pd.DataFrame({'col':[['a_b', 'bad'],['a_a', 'good'],[]]})我尝试首先创建一个二进制列，然后对这个列进行筛选： from pyspark.sql im

浏览 2提问于2021-04-08得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云