如何按日期过滤Spark数据帧？

在Spark中，可以使用filter()函数按日期过滤数据帧。具体步骤如下：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.appName("DateFilter").getOrCreate()

df = spark.read.csv("data.csv", header=True, inferSchema=True)

这里假设数据源文件为CSV格式，且包含表头。

df = df.withColumn("date", col("date").cast("date"))

假设日期列的名称为"date"，通过withColumn()函数将其转换为日期类型。

start_date = "2022-01-01"
end_date = "2022-01-31"

假设要过滤的日期范围为2022年1月1日至2022年1月31日。

filtered_df = df.filter((col("date") >= start_date) & (col("date") <= end_date))

使用filter()函数结合逻辑运算符>=和<=，按照指定的日期范围过滤数据帧。

filtered_df.show()

通过show()函数查看过滤后的数据帧。

以上是按日期过滤Spark数据帧的基本步骤。根据具体需求，可以根据不同的日期格式和数据源类型进行适当的调整。

腾讯云相关产品和产品介绍链接地址：

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云