如何过滤同一列pyspark sql中的多个条件

文章/答案/技术大牛

发布

1回答

、、、

view | 3|+-------+------------------+-------+| user 3| view | 4|简单地说，删除完成这两个操作的idsvalue=="processed").select("id").distinct() df2 = df.w

浏览 7提问于2017-07-08得票数 3

回答已采纳

1回答

当在Spark Dataframe上的过滤器中使用"and“子句时，它返回Spark.SQL.Column而不是Spark Dataframe。但在一个条件下，它工作得很好。如何show()或迭代通过Spark Sql列对象？尝试show()函数时抛出错误- 'Column' object not callable.或者如何将Spark.SQL.Column转换为Spark Dataframe？或者<em

浏览 1提问于2019-04-23得票数 0

2回答

如何在dataframe spark的一列中获取列表的长度？

我有一个df，它的'products‘列如下所示：|member_srl|click_day|103825645]|| 6963| 20160111|[99643224, 106032...| 如何添加一个新的列product_cnt，哪些是products列表的长度？以及如何</e

浏览 3提问于2017-06-14得票数 25

1回答

Pyspark使用.filter()过滤掉空列表

、、、

我有一个pyspark dataframe，其中一列填充了列表，要么包含条目，要么只包含空列表。我想高效地过滤掉所有包含空列表的行。import pyspark.sql.functions as sf: java.lang.RuntimeException: Unsupported literal type class 也许我可以检查列表的长度，并强制它应该大于0(参

浏览 17提问于2017-02-24得票数 7

回答已采纳

3回答

如何修改pyspark使用的一行中的一个列值

我想当userid=22650984.How在pyspark平台上更新它的价值?谢谢你的帮助。

浏览 8提问于2018-04-08得票数 11

回答已采纳

1回答

如何将DataFrame.withColumn与条件一起使用

、、

我想知道如何在完整的DataFrame上创建一个新列，但其值仅基于DataFrame的一个子集(即，基于条件应用的某些函数)。在本例中，我希望创建一个列，该列将每个ID与Value列中按ID的正值之和相关联。|| 1 | 12 | 17 |下面

浏览 1提问于2019-02-02得票数 0

1回答

使用逻辑和超过条件列表的PySpark* DataFrame过滤器-- Numpy所有等效条件*

、、、、

如果所有列的值为零，我将尝试过滤PySpark数据的行。我希望使用这样的方法(使用numpy函数np.all() )：df.filter(all([(col(c) !是否有任何方法来执行逻辑和条件列表？np.all在PySpark中对应的功能是什么？

浏览 3提问于2016-12-20得票数 16

回答已采纳

1回答

检查火花数据中的行值是否为空。

、、、、

我正在使用pyspark中的自定义函数来检查星火数据true中每一行的条件，如果条件为true，则添加列。守则如下：from pyspark.sql.functions import * sdf = sdf_temp.m

浏览 3提问于2016-08-19得票数 7

1回答

Pyspark数据帧过滤语法错误

、

我正在使用Pyspark版本1.6处理Pyspark数据帧。在将此数据框导出到.CSV文件之前，我需要根据特定条件对特定列使用LIKE和OR运算符过滤数据。为了向您介绍我到目前为止所做的工作，我从多个.JSON文件创建了初始数据帧。此数据框已子集，因此仅包含所需的列。然后创建了一个sqlContext临时表。到目前为止，我已经尝试了两种不同的方法，使用sqlContext和使用Pyspark方法。O

浏览 0提问于2017-07-27得票数 0

回答已采纳

2回答

如何添加具有特殊条件的不同行的两列？

、、、、

你好，我有一个PySpark dataframe。因此，我想从具有特殊条件的不同行中添加两列。其中一列是日期类型。-------------------------------------------------from pyspark.sql.functions import expr dataf

浏览 0提问于2019-02-19得票数 0

回答已采纳

2回答

多列上的过滤

、

我有一份电火花数据文件，如下所示num11 num21 20 30 我正在对所有存在的列进行上述数据过滤，并选择列数大于10 no的行可以超过2列。from pyspark.sql.functions import coldf_fltered = df.where(col(c) >= 10 forc in col_list) 期

浏览 5提问于2017-11-16得票数 2

回答已采纳

2回答

角度2:类型记录:基于提供的过滤条件的过滤网格数据

、、、

我在我的网格(列表)中使用动态列过滤。如果我要应用静态过滤条件，它就会像预期的那样工作。但是，当我尝试使用dynamic列时，它不起作用，我不得不用dynamic列调用它，因为同一列上应该有多个条件，多列也应该有多个条件。它不会抛出任何错误，但不会过滤任何记录静态过滤器

浏览 3提问于2017-03-20得票数 4

2回答

在中过滤数组

、、、、

火花版本: 2.3.0 Array Col['strawberry', 'raspberry'] ['apple', 'pineapple', 'grapes']

浏览 3提问于2021-10-01得票数 1

回答已采纳

1回答

基于其他列更新列的Pyspark行

、

如下所示from pyspark.sql.types import StringType new_df = df.withColumnnew_column中的值。我试图写下面的条件，但无法这样做。pyspark中实现这一点。编辑--我不是在寻找if the语句，而是如何更新pyspark列中</e

浏览 1提问于2018-05-02得票数 0

回答已采纳

1回答

Pyspark使用一条when语句更新两列？

、

因此，我在PySpark中使用df.Withcolumn()来创建列，并使用F.when()来指定何时应该更新该列的条件。df = df.withColumn('ab', F.when(df['text']=="0", 1).otherwise(0)) 基本上，如果符合条件，我会将列更新为“1”。现在，如果相同的条件匹配，我想要更新同一df中</em

浏览 3提问于2016-10-19得票数 0

9回答

类Pyspark数据帧运算符

、

在Pyspark中，LIKE运算符的等价物是什么？例如，我想这样做：寻找像这样简单的东西(但这不起作用)： df.select('column

浏览 0提问于2016-10-24得票数 33

1回答

基于两列时差的火花放电数据过滤

、、

我有一个包含多个列的dataframe，其中两个是pyspark.sql.TimestampType类型的。我希望将此数据过滤到这两列之间的时间差小于一个小时的行。data.filter((data.tstamp - data.date) < datetime.timedelta(hours=1))org.apache.spark.sql.AnalysisExc

浏览 3提问于2017-08-23得票数 1

回答已采纳

1回答

对于相同的总数据量，从多个宗地文件进行SparkSQL查询要比从单个宗地文件查询慢得多

、、、

我发现使用sparksql (来自pyspark)查询从多个拼图文件生成的DataFrame的效率远低于从单个拼图文件生成的相同数量的数据，尽管过滤条件不是第一列(所以我猜它不是索引内容)。如何才能使查询响应时间与后者一样高效？the parquet files into a DataFrame # query from the DataF

浏览 10提问于2020-08-05得票数 0

1回答

pyspark dataframe“条件应为字符串或列”

、、、

我一直收到错误“TypeError(”条件应该是字符串或列“)” 我已经尝试更改滤镜以使用col对象。尽管如此，它还是不起作用。path = 'dbfs:/FileStore/tables/TravelData.txt'from pyspark.sql.types importIntegerType(), True)df = spark.read.option("delimiter",

浏览 21提问于2019-02-02得票数 0

回答已采纳

2回答

要为每行pyspark* dataframe计算多个if elif条件*

、、、

我需要帮助在pyspark数据帧主题。我有一个数据框架，比如1000+列和100000+ rows.Also，我有10000+ if elif条件，在每个if else条件下，只有很少的全局变量被一些值递增。现在我的问题是，我如何才能仅在pyspark中实现这一点。我读到了过滤器和where函数，它们根据条件返回行，我需要检查这些10000+ if else条件并执行一些操作。任

浏览 0提问于2017-07-25得票数 0

点击加载更多