文章/答案/技术大牛

发布

社区首页 >问答首页 >用日期列与两个参考列比较计算从日期开始的年份

问用日期列与两个参考列比较计算从日期开始的年份
EN

Stack Overflow用户

提问于 2021-07-13 15:13:50

回答 1查看 50关注 0票数 1

我正在为我参与的一个项目做一些数据准备。我们在Databricks中完成了大部分工作，使用底层的Apache对大型数据集进行计算。一切都是用PySpark完成的。

我的目标是将日期变量转换为变量yearperiod，它将一年分为13个4周的周期(除了一些例外)。这一数值是该年和该期间的级联，例如，yearperiod = 201513将是2015年的13期。

我有两个表：yp_table，它包含年期间的开始日期和结束日期(编辑：DateType()类型)(从2012年到现在，编辑：~120行)：

+----------+----------+----------+
|     start|       end|yearperiod|
+----------+----------+----------+
|2012-01-16|2012-01-29|    201201|
|2012-01-30|2012-02-26|    201202|
|2012-02-27|2012-03-25|    201203|
|2012-03-26|2012-04-22|    201204|
|2012-04-23|2012-05-20|    201205|
|2012-05-21|2012-06-17|    201206|
              ....

我有一个实际的data表，它包含一个日期列(编辑:类型StringType())：

+--------+--------+--------+-----+
|    Var1|    Var2|    Date| Var3|
+--------+--------+--------+-----+
|  xxxxxx|    xxxx|20191231| x,xx|
|  xxxxxx|    xxxx|20191231| x,xx|
|  xxxxxx|    xxxx|20191231| x,xx|
|  xxxxxx|    xxxx|20200101| x,xx|
|  xxxxxx|    xxxx|20200101| x,xx|
|  xxxxxx|    xxxx|20200101| x,xx|
|  xxxxxx|    xxxx|20200101| x,xx|
                 ...

我的问题:如何计算data表的列data，方法是将data.Date与yp_table.start和yp_table.end进行比较

到目前为止，我已经能够让它与常规Python (一种具有列表理解的解决方案)一起工作，但是对于大型数据集来说，它太慢了。任何帮助都是非常感谢的！

编辑：出于隐私原因，我不能给出数据格式的实际模式。我已经编辑了上面的内容以包括相关列的类型。

pyspark

python

apache-spark

date

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-07-13 17:38:12

向data df中添加一个列，该列包含匹配格式的日期到yp_table，然后按日期间隔进行筛选。由于yp_table很小，所以可以使用广播连接来加快速度。

import pyspark.sql.functions as fun

# Date lookup
start_dates = ["2012-01-16", "2012-01-30", "2012-02-27", "2012-03-26", "2012-04-23", "2012-05-21"]
end_dates = ["2012-01-29", "2012-02-26", "2012-03-25", "2012-04-22", "2012-05-20", "2012-06-17"]
yearperiod = ["201201", "201202", "201203", "201204", "201205", "201206"]
yp_table = spark.createDataFrame(pd.DataFrame({'start': start_dates, 'end': end_dates, 'yearperiod': yearperiod}))

# Data df
dates =  ["20120116", "20120130", "20120228", "20120301", "20200101", "20200101", "20200101"]
vals = range(0, len(dates))

data = spark.createDataFrame(pd.DataFrame({'Dates':dates, 'vals': vals}))

# Add formatted data_str column for joining
data = data.withColumn("date_str", fun.concat_ws("-", data.Dates.substr(0,4), data.Dates.substr(5,2), data.Dates.substr(7,2))) # + "-" + data.Dates.substr(6,8))

# Broadcase join small yp_table into the data table using conditional
joined = data.join(fun.broadcast(yp_table), (data.date_str >= yp_table.start) & (data.date_str < yp_table.end))


yp_table.show()
data.show()
joined.show()

+----------+----------+----------+
|     start|       end|yearperiod|
+----------+----------+----------+
|2012-01-16|2012-01-29|    201201|
|2012-01-30|2012-02-26|    201202|
|2012-02-27|2012-03-25|    201203|
|2012-03-26|2012-04-22|    201204|
|2012-04-23|2012-05-20|    201205|
|2012-05-21|2012-06-17|    201206|
+----------+----------+----------+

+--------+----+----------+
|   Dates|vals|  date_str|
+--------+----+----------+
|20120116|   0|2012-01-16|
|20120130|   1|2012-01-30|
|20120228|   2|2012-02-28|
|20120301|   3|2012-03-01|
|20200101|   4|2020-01-01|
|20200101|   5|2020-01-01|
|20200101|   6|2020-01-01|
+--------+----+----------+

+--------+----+----------+----------+----------+----------+
|   Dates|vals|  date_str|     start|       end|yearperiod|
+--------+----+----------+----------+----------+----------+
|20120116|   0|2012-01-16|2012-01-16|2012-01-29|    201201|
|20120130|   1|2012-01-30|2012-01-30|2012-02-26|    201202|
|20120228|   2|2012-02-28|2012-02-27|2012-03-25|    201203|
|20120301|   3|2012-03-01|2012-02-27|2012-03-25|    201203|
+--------+----+----------+----------+----------+----------+

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68365111

复制

相似问题

问用日期列与两个参考列比较计算从日期开始的年份
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用日期列与两个参考列比较计算从日期开始的年份EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用日期列与两个参考列比较计算从日期开始的年份
EN