在pyspark中提取DataFrame中datetime列的小时,可以使用pyspark.sql.functions中的hour函数来实现。下面是一个完整的解答示例:
要从pyspark DataFrame中的datetime列中提取小时,可以按照以下步骤进行:
from pyspark.sql import SparkSession
from pyspark.sql.functions import hour
spark = SparkSession.builder.getOrCreate()
data = [("2021-01-01 10:15:30"), ("2021-01-02 12:30:45"), ("2021-01-03 15:45:00")]
df = spark.createDataFrame(data, ["datetime"])
df_with_hour = df.withColumn("hour", hour(df.datetime))
现在,df_with_hour DataFrame包含了原始DataFrame中datetime列的小时信息。你可以通过查看DataFrame的内容来验证结果:
df_with_hour.show()
这将会打印出以下结果:
+-------------------+----+
| datetime|hour|
+-------------------+----+
|2021-01-01 10:15:30| 10|
|2021-01-02 12:30:45| 12|
|2021-01-03 15:45:00| 15|
+-------------------+----+
此外,腾讯云提供了一个名为TencentDB for MySQL的云数据库产品,适用于存储结构化数据。你可以使用TencentDB for MySQL来存储包含datetime列的数据,并使用pyspark进行分析和处理。你可以在腾讯云官方网站上找到更多关于TencentDB for MySQL的信息:
领取专属 10元无门槛券
手把手带您无忧上云