pyspark从spark dataframe列创建不同列表，并在spark sql where语句中使用

pyspark是一个用于在Python中操作Apache Spark的库。它提供了一种方便的方式来处理大规模数据集，并且可以与Spark的分布式计算能力无缝集成。

要从Spark DataFrame的列创建不同的列表，可以使用select函数来选择特定的列，并将其转换为Python列表。下面是一个示例代码：

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建一个示例DataFrame
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])

# 从DataFrame的列创建不同的列表
name_list = df.select("Name").rdd.flatMap(lambda x: x).collect()
age_list = df.select("Age").rdd.flatMap(lambda x: x).collect()

# 打印结果
print(name_list)  # 输出: ['Alice', 'Bob', 'Charlie']
print(age_list)  # 输出: [25, 30, 35]

在Spark SQL的where语句中使用这些列表可以通过使用isin函数来实现。isin函数用于在列中匹配给定的值，并返回一个布尔类型的列，表示是否匹配成功。下面是一个示例代码：

from pyspark.sql.functions import col

# 创建一个示例DataFrame
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])

# 从DataFrame的列创建不同的列表
name_list = df.select("Name").rdd.flatMap(lambda x: x).collect()
age_list = df.select("Age").rdd.flatMap(lambda x: x).collect()

# 使用列表在Spark SQL的where语句中进行过滤
filtered_df = df.where(col("Name").isin(name_list) & col("Age").isin(age_list))

# 打印结果
filtered_df.show()

在上述示例中，我们首先使用isin函数将Name列和Age列与相应的列表进行匹配，然后使用&操作符将两个条件组合起来，并将结果传递给where函数进行过滤。最后，我们使用show函数打印过滤后的DataFrame。

关于pyspark和Spark SQL的更多信息，你可以参考腾讯云的相关产品和文档：

pyspark从spark dataframe列创建不同列表，并在spark sql where语句中使用

apache-spark、pyspark、apache-spark-sql

我有一个dataframe df和一个列名为setp的列来创建我编写的列表。distinct().collect()setp_array= str(setp_array)[1:-1] 我想在spark.sql语句中使用它 df1=spark.sql(f"select * from table where

浏览 12提问于2021-01-10得票数 0

回答已采纳

2回答

pyspark寄存器内置函数及其在spark.sql查询中的使用

apache-spark、pyspark、apache-spark-sql

在spark.sql查询中注册和使用pyspark version 3.1.2内置函数的正确方式是什么？下面是一个创建pyspark DataFrame对象并在纯SQL中运行简单查询的最小示例。import pandas as pdimport pyspark.sql.typ

浏览 4提问于2021-08-19得票数 0

回答已采纳

12回答

如何创建一个空的DataFrame？为什么"ValueError: RDD是空的“？

apache-spark、pyspark

我正在努力创建一个空的数据在火花(火花)。Traceback (most recent call last):File "/Users/Me/Desktop/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql&#

浏览 4提问于2016-01-06得票数 34

回答已采纳

1回答

用列列表激发SQL插入选择？

apache-spark

当我阅读Spark/Hive文档时，将插入到带有列列表的表中，在Spark2.4和更早版本中不支持。input_table( cola, colb, colc, cold, cole) output

浏览 1提问于2019-01-09得票数 4

回答已采纳

3回答

PySpark: TypeError:条件应为字符串或列

python、apache-spark、dataframe、pyspark、apache-spark-sql

我正在尝试过滤RDD，如下所示：spark_df.filter(lambda r: str(r['target']).-8-86cfb363dd8b> in <module>()----> 2 spark_df.filter/pyspark/sql</e

浏览 2提问于2016-10-06得票数 18

1回答

使一个函数成为.agg()在groupBy语句中的组件，将生成一个AssertionError

python、pandas、apache-spark

from pyspark.sql import SparkSession dataframe {'id' : [= s

浏览 3提问于2020-07-01得票数 1

回答已采纳

1回答

如何将spark* dataframe中的String类型列转换为Pandas dataframe中的String类型列*

pandas、apache-spark、pyspark

我有一个从熊猫数据帧创建的样本spark数据帧-frompyspark.sql.types import StringType spark<

浏览 3提问于2020-09-09得票数 0

1回答

如何将dataframe列转换为字典

python、pyspark

').cast('string'))它显示类型为dataframe：无论如何，我再次尝试使用"loads我尝试使用不同的选项来获得table_name的价值，从转换到json、dict、regex、splits等等，但没有任何帮助。findspark.init('/mnt

浏览 4提问于2022-04-26得票数 0

4回答

Zeppelin -无法使用%sql查询我使用pyspark注册的表

apache-spark、pyspark、apache-spark-sql、apache-zeppelin

我是spark/zeppelin的新手，我想完成一个简单的练习，我将把一个csv文件从熊猫转换成Spark数据帧，然后注册表格，用sql查询它，并用Zeppelin可视化它。我使用的是Spark 1.6.1%pysparkprint spark_clean_df.dtypesprint sqlCon

浏览 1提问于2016-06-02得票数 7

2回答

如何将值传递给表中的pyspark变量？

python、pyspark、apache-spark-sql

这可能是一个愚蠢的问题，但我有一个表，其中的每一列都包含要传递给变量的值： select sfObject from db.tblwhere Id = {} 我看到的是一个名为sfObject的列，它的预期值为'ValueA‘，我得到一个pyspark.sql

浏览 1提问于2020-06-10得票数 1

回答已采纳

1回答

在REGEXP_SUBSTR中是否有“SnowFlake”的“PySpark”？

sql、regex、pyspark、snowflake-cloud-data-platform

在PySpark/spark-sql中是否有相当于雪花的spark-sql这里有一个指向的链接。

浏览 7提问于2020-09-15得票数 0

回答已采纳

3回答

我们正在处理无模式的JSON数据，有时spark作业会失败，因为我们在spark SQL中引用的一些列在一天中的某些时间内不可用。在这些小时内，spark作业失败，因为所引用的列在数据帧中不可用。我尝试过UDF，但是我们缺少太多的列，所以不能真正地检查每一列的可用性。我还尝试在更大的数据集上推断模式，并将其应用于数据帧，期望缺少的列将用null填充，但模式应用程序失败并出现奇怪的错

浏览 5提问于2018-08-10得票数 2

1回答

如何在pyspark中将GUID转换为整数

apache-spark、pyspark、apache-spark-sql、aws-glue、aws-glue-spark

我目前可以在SQL中运行以下语句将GUID转换为int。CHECKSUM(HASHBYTES('sha2_512',GUID)) AS int_value_wanted 我想在pyspark中做同样的事情，并尝试在spark dataframe中创建一个临时表，并在sql查询中添加上面的语句。有没有一种方法可以将"CHECKSUM“函

浏览 6提问于2021-05-14得票数 1

1回答

在PYSPARK中从联接表中选择所有列

python、apache-spark、pyspark

我有一个'type = pyspark.sql.dataframe.DataFrame‘的数据，我想从这个数据df和另一个具有相同类型的数据df1中选择所有列。我从r创建df，这是一个元组列表。df = spark.createDataFrame(r, schema =column )

浏览 4提问于2022-07-08得票数 0

2回答

我们如何从multidict中创建pyspark数据格式？

python-3.x、apache-spark、pyspark

dict = {11：{101,102}，22：{111,112,101}，33：{101}，44：{102}-------+-------+| 22| 101|| 44| 102|稍后，我还想将这个结构保存到不同的DB中。

浏览 5提问于2020-03-21得票数 0

回答已采纳

2回答

如何使用pyspark执行CQL查询

apache-spark、pyspark、cassandra、spark-cassandra-connector

我想使用PySpark.But执行Cassandra CQL查询，我没有找到执行它的方法。我可以将整个表加载到dataframe并创建临时视图并查询它。df = spark.read.format("org.apache.spark.sql.cassandra").country_production2",keyspace="country").load() df.createOrReplaceTempView(&quo

浏览 17提问于2020-07-22得票数 0

2回答

Pyspark问题将计数结果转换为数据帧

pandas、apache-spark、pyspark、apache-spark-sql

我有一个pyspark函数，看起来像这样。\spark.sql("select count(*) from student_table where student_scores is NULL") \ spark.sql("select

浏览 0提问于2021-11-07得票数 0

2回答

如何将List[String]值添加到数据帧中的单个列

scala、apache-spark

我有一个dataframe，我有一个值列表(可能是列表字符串)，我想在我的dataframe中创建一个新列，并将这些列表值作为列值添加到这个新列。c_df)((df, column) => df.withColumn("newcolumnname" , lit(column))) 但它抛出了StackOverflow异常，我也尝试过迭代字符串值列表并添加到数据帧中<

浏览 0提问于2019-01-03得票数 0

1回答

使用检查点从胞表读取和更新同一个表

hive、pyspark、spark-checkpoint

我正在使用spark版本2.3，并试图将spark中的蜂巢表读取为：from pyspark.sql.functions import*在这里，我添加了一个新列，其中包含了从system到现有的dataframe的当前日

浏览 0提问于2018-12-06得票数 2

回答已采纳

1回答

将通过FOR循环函数输出的多个数据帧合并为一个数据帧

python、python-3.x、apache-spark、pyspark、apache-spark-sql

我有一个FOR循环函数，它迭代表和列的列表(zip)以获得最小值和最大值。每个组合的输出都是分开的，而不是一个单独的数据帧/表。有没有办法将FOR循环的结果合并到函数中的一个最终输出中？from pyspark.sql import functions as f for table, column in zip(tables, cols): minmax = spark.table(

浏览 30提问于2019-05-05得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

pyspark从spark dataframe列创建不同列表，并在spark sql where语句中使用

相关·内容

pyspark从spark dataframe列创建不同列表，并在spark sql where语句中使用

pyspark寄存器内置函数及其在spark.sql查询中的使用

如何创建一个空的DataFrame？为什么"ValueError: RDD是空的“？

用列列表激发SQL插入选择？

PySpark: TypeError:条件应为字符串或列

使一个函数成为.agg()在groupBy语句中的组件，将生成一个AssertionError

如何将spark* dataframe中的String类型列转换为Pandas dataframe中的String类型列*

如何将dataframe列转换为字典

Zeppelin -无法使用%sql查询我使用pyspark注册的表

如何将值传递给表中的pyspark变量？

在REGEXP_SUBSTR中是否有“SnowFlake”的“PySpark”？

如何处理spark* sql中缺少的列*

如何在pyspark中将GUID转换为整数

在PYSPARK中从联接表中选择所有列

我们如何从multidict中创建pyspark数据格式？

如何使用pyspark执行CQL查询

Pyspark问题将计数结果转换为数据帧

如何将List[String]值添加到数据帧中的单个列

使用检查点从胞表读取和更新同一个表

将通过FOR循环函数输出的多个数据帧合并为一个数据帧

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐