Pyspark -从具有最小和最大值范围的数组中获取值

基础概念

PySpark 是 Apache Spark 的 Python API，用于大规模数据处理。Spark 是一个分布式计算框架，能够处理大规模数据集并提供快速的数据处理能力。PySpark 允许开发者使用 Python 语言编写 Spark 应用程序。

类型与应用场景

批处理：适用于大规模数据的离线处理。
实时流处理：适用于需要实时响应的数据流处理。
机器学习：内置了多种机器学习算法，适用于数据分析和预测。
图计算：支持图数据的处理和分析。

示例问题：从具有最小和最大值范围的数组中获取值

假设我们有一个 DataFrame，其中包含一个数组列，我们需要从这个数组中筛选出在指定最小值和最大值范围内的元素。

示例代码

from pyspark.sql import SparkSession
from pyspark.sql.functions import array_filter, col

# 初始化 SparkSession
spark = SparkSession.builder.appName("ArrayFilterExample").getOrCreate()

# 创建示例 DataFrame
data = [
    (1, [10, 20, 30, 40]),
    (2, [15, 25, 35, 45]),
    (3, [5, 15, 25, 35])
]
columns = ["id", "values"]
df = spark.createDataFrame(data, columns)

# 定义最小值和最大值
min_value = 15
max_value = 35

# 使用 array_filter 函数筛选数组中的元素
filtered_df = df.withColumn(
    "filtered_values",
    array_filter(col("values"), lambda x: min_value <= x <= max_value)
)

# 显示结果
filtered_df.show(truncate=False)

输出结果

+---+----------------+----------------+
|id |values          |filtered_values|
+---+----------------+----------------+
|1  |[10, 20, 30, 40]|[20, 30]        |
|2  |[15, 25, 35, 45]|[15, 25, 35]    |
|3  |[5, 15, 25, 35] |[15, 25, 35]    |
+---+----------------+----------------+