我有一个胶水作业,它查看当前日期的文件(每个日期在s3中都有一个文件夹)并处理该文件夹中的数据(例如:"s3://bucket_name/year/month/day"
),现在我想找到一种方法来定义输入s3路径,告诉胶水查看前一天和今天,有什么方法可以做到这一点吗?
current_glue_input_path = "s3://bucket_name/2021/08/12"
我想要找到一个正则表达式(可能是通配符?)告诉Glue看看"s3://bucket_name/2021/08/11"
和"s3://bucket_name/2021/08/12"
,有没有办法这样做?
在此documentation中:在“排除亚马逊S3分区子集的示例”部分下:
第二部分,2015/0[2-9]/**
,不包括2015年02到09月份的天数。
不确定这是否有意义,有人能帮帮忙吗?谢谢。
(我刚刚意识到这个文档是Glue crawler的正则表达式,我说的是Glue作业,我是不是看错地方了…?)
发布于 2021-08-17 22:09:20
以编程方式计算当前日期和以前的日期是否有效?Python示例如下-
from datetime import datetime, timedelta
date_today = datetime.today().strftime('%Y%m%d')
date_yesterday = datetime.strftime(datetime.now() - timedelta(1), '%Y%m%d')
current_glue_input_path = f's3://bucket_name/{date_today[0:4]}/{date_today[4:6]}/{date_today[6:8]}'
yesterday_glue_input_path = f's3://bucket_name/{date_yesterday[0:4]}/{date_yesterday[4:6]}/{date_yesterday[6:8]}'
https://stackoverflow.com/questions/68760415
复制相似问题