如何在 PySpark 中进行简单的 SQL 查询？

原创

代码小李

发布于 2025-01-26 14:20:25

8900

代码可运行

运行总次数：0

代码可运行

在 PySpark 中，可以使用SparkSession来执行 SQL 查询。SparkSession提供了一个 SQL 接口，允许你将 DataFrame 注册为临时视图（temporary view），然后通过 SQL 语句进行查询。以下是一个示例代码，展示了如何在 PySpark 中进行简单的 SQL 查询：

from pyspark.sql import SparkSession

# 创建 SparkSession
spark = SparkSession.builder.appName("SQLExample").getOrCreate()

# 读取 CSV 文件并创建 DataFrame
df = spark.read.csv("path/to/your/file.csv", header=True, inferSchema=True)

# 将 DataFrame 注册为临时视图
df.createOrReplaceTempView("table_name")

# 执行 SQL 查询
result = spark.sql("SELECT * FROM table_name WHERE column_name > 100")

# 显示查询结果
result.show()

# 停止 SparkSession
spark.stop()

详细步骤说明

创建 SparkSession：
- 使用 SparkSession.builder 创建一个 SparkSession 对象，并设置应用程序的名称。
读取数据并创建 DataFrame：
- 使用 spark.read.csv 方法读取 CSV 文件，并将其转换为 DataFrame。header=True 表示文件的第一行是列名，inferSchema=True 表示自动推断数据类型。
注册临时视图：
- 使用 df.createOrReplaceTempView 方法将 DataFrame 注册为临时视图，这样就可以在 SQL 查询中引用这个视图。
执行 SQL 查询：
- 使用 spark.sql 方法执行 SQL 查询。在这个示例中，查询 table_name 视图中 column_name 列值大于 100 的所有记录。
显示查询结果：
- 使用 result.show() 方法显示查询结果。
停止 SparkSession：使用 spark.stop() 方法停止 SparkSession，释放资源。