pyspark sql:如何计算具有多个条件的行

在Pyspark SQL中，要计算具有多个条件的行，可以使用filter()函数来筛选满足条件的行。filter()函数接受一个布尔表达式作为参数，返回满足条件的行。

以下是一个示例代码，演示如何使用filter()函数计算具有多个条件的行：

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 读取数据
data = spark.read.csv("data.csv", header=True, inferSchema=True)

# 使用filter()函数筛选满足条件的行
filtered_data = data.filter((data["column1"] > 10) & (data["column2"] == "value"))

# 显示结果
filtered_data.show()

在上述代码中，我们首先创建了一个SparkSession对象，然后使用read.csv()方法读取数据文件。接下来，我们使用filter()函数来筛选满足条件的行，条件由多个条件组成，使用逻辑运算符&连接。最后，使用show()方法显示筛选后的结果。

需要注意的是，filter()函数的参数是一个布尔表达式，可以使用比较运算符（如>、<、==等）和逻辑运算符（如&、|、~等）来构建条件。

关于Pyspark SQL的更多信息，您可以参考腾讯云的相关产品和文档：

pyspark sql:如何计算具有多个条件的行

、、、、

在一些操作之后，我有了一个类似这样的数据帧； df_new_1 = df_old.filter(df_old["col1"] >= df_old["col2"]) df_new_2 = df_old.filter但是，我如何使用pyspark sql row操作来完成此操作。即按行聚合。我想看到这样的结果； Row(check1=10, check2=15)

浏览 11提问于2019-12-28得票数 1

回答已采纳

2回答

关于火花放电窗口函数中的不孕函数

、、、

我正在运行以下代码段，from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('SparkByExamples.com').department").orderBy(

浏览 4提问于2021-04-02得票数 1

回答已采纳

1回答

将值添加到新列中，同时循环遍历中的两列。

、、、

我有一个带有列(除了更多的列)的:每个月都有多个ids。每个id的活动状态由“金额”列确定。如果数量大于0，则active =1 active 0。Z| 50|2019-06-01| 1 |+-----------------------------+--- 我要计算和添加的新列是它是根据过去三个月的活动状况计算的。对于id = x，date = 201

浏览 2提问于2019-11-12得票数 1

回答已采纳

1回答

检查火花数据中的行值是否为空。

、、、、

我正在使用pyspark中的自定义函数来检查星火数据true中每一行的条件，如果条件为true，则添加列。守则如下：from pyspark.sql.functions import * sdf = sdf_temp.map(customFunction)

浏览 3提问于2016-08-19得票数 7

1回答

如何中断过长的类型文档字符串

、、、

我有一个python方法，它接收多个参数并返回多个参数。我指定了它们的类型，但是行太长了。Pycharm不允许我将它分成两行，即使我使用"“。我应该如何打破这条线(除了做import pyspark.sql.DataFrame as something_shorter之外)？import pandas as pd

浏览 4提问于2021-01-05得票数 0

1回答

使用python中的SQL文件运行SPARK会出现错误。

、

我正在尝试使用SPARK调用一个带有来自Python文件的单元查询的.SQL文件。它给出了错误-- AttributeError：'Builder‘对象没有属性'SparkContext’sc = SparkSession.SparkContext.getOrC

浏览 2提问于2022-02-14得票数 0

2回答

从行中的多个值计算一个值

、

我有一个PySpark Dataframe，我想添加一个从其他列的多个值计算出来的列。l = [('Ankit',25),('Jalfaizy',22),('saurabh',20),('Ba

浏览 1提问于2019-11-29得票数 1

回答已采纳

1回答

对数据中每一行执行sql查询的熊猫udf进行优化？

、、、、

我正在利用pyspark和熊猫udfs来加速对包含大约350万行的数据帧的计算。本质上，我是从符合某些条件的表中加载行。然后，我将这些数据按“some_col”列进行分组，大致应该将数据分成4组。然后，我应用一个计算metric_1和metric_2的函数，其中每个度量都是表中与当前行的某些值相匹配的条目数。最后的计算将在final_result

浏览 2提问于2019-10-15得票数 0

2回答

如何添加具有特殊条件的不同行的两列？

、、、、

你好，我有一个PySpark dataframe。因此，我想从具有特殊条件的不同行中添加两列。其中一列是日期类型。-------------------------------------------------from pyspark.sql.functions import expr dataframe.withColumn("new_c

浏览 0提问于2019-02-19得票数 0

回答已采纳

1回答

具有给定术语的文档的PySpark HashingTF计数

、、

我有一个spark数据框，其中的" text“列有一些文本。我想要计算出现各种单词的行数-本质上是出现“术语”的“文档”的数量-以及相关的计数，如最频繁的单词，具有最频繁单词的行(或称为文档)。我正在使用来自pyspark.ml.feature的HashingTF。但是似乎找不到一种有效的方法来从输出中提取这些信息。and jumped and ran

浏览 25提问于2021-08-31得票数 0

回答已采纳

1回答

在pyspark中计算列之间的方差

、、

如何计算pyspark中多个列的方差？例如，如果pyspark.sql.dataframe表是：1 12 15 73 56 25 25ID A B C Variance2 6 15 2 29.64 3612 5

浏览 1提问于2017-04-28得票数 1

1回答

PySpark支持条件语句的短路评估吗？

、、、、

我想在我的dataframe中创建一个新的布尔列，它的值来自对同一dataframe中其他列的两个条件语句的计算：这很好，除非co

浏览 7提问于2021-07-14得票数 2

回答已采纳

1回答

SHIFTED_PD').join(f.broadcast(shifted_pd), on=['FORWARD_LOOK_MODEL', 'FOR_PD_TYPE'], how='left') 我不能计算groupby的平均值，只能取第一个值，然后用f.lit()将它添加到一个新列中，因为分组数据有4个项目，我得到的不是1个平均值，而是每个值都有4个平均值。这两行代码在23个循环迭代中，23个连接并不是很好。有没有一种方法可以避免这种情况，并以某种方式直

浏览 4提问于2020-03-05得票数 0

回答已采纳

2回答

为什么火花不认识我的“数据布尔表达式”？

、、、

环境问题join_cond = [ ).alias("ltmr1"), "leftsemi"程序在以下一行失败： col("g

浏览 8提问于2021-07-09得票数 0

回答已采纳

1回答

包含select where的pyspark新列

、、、

我需要在我的数据框中创建两个额外的列，它们基于一个列的计算，该计算涉及一个列与另一个列上的条件相除。我有一个SQL转换的工作示例，但需要用pyspark equvilent重写它，并且无法正确完成。EUR| 11.2|+--------+-------+ df.createOrReplaceTempView("tempdf") 以上就是我到目前为止在<

浏览 29提问于2021-04-26得票数 1

回答已采纳

2回答

是否在使用dropduplicates时保持在最后？

、、、

例如： from pyspark.sql import Row Row(name='Alice', age=5, height=80), \---+-----++---+------+-----++---+------+-----+ keep=last似乎不是pyspark中的一个选项？

浏览 57提问于2021-02-05得票数 1

1回答

在创建UDF Pyspark时，何时需要使用lambda (以及何时不需要)？

、、、

我不完全理解什么时候需要在UDF的定义中使用lambda函数。我之前的理解是，我需要lambda才能让DataFrame认识到它必须遍历每一行，但我已经看到许多UDF的应用程序没有lambda表达式。例如：@udf("string") if s == 'KS' and 'MI'

浏览 3提问于2021-10-26得票数 0

2回答

无法导入模块'lambda_function'：没有名为'pyspark‘的模块

、、

我正在尝试使用AWS Lambda函数运行我的PySpark作业代码。下面是错误:无法导入模块'lambda_function'：没有名为'pyspark‘的模块我的PySpark工作具有以下导入。那么，我如何将下面的库导入到我的Lambda函数中呢？如何在Lambda函数中安装这些？from pyspark.sql import SparkSess

浏览 0提问于2018-12-11得票数 0

1回答

火花过滤器未按预期工作..“‘Column”对象不可调用

、、、、

当在Spark Dataframe上的过滤器中使用"and“子句时，它返回Spark.SQL.Column而不是Spark Dataframe。但在一个条件下，它工作得很好。如何show()或迭代通过Spark Sql列对象？尝试show()函数时抛出错误- 'Column' object not callable.或者如何将Spark.SQL.Column转换为Spark Dataframe？或者如何在filter子句中

浏览 1提问于2019-04-23得票数 0

1回答