我有一个目录,它有基于日期的文件夹,运行日期是文件夹名称的一部分。我有一个每天的火花工作,在其中我需要加载最后7天的文件在任何一天。
不幸的是,该文件夹还包含其他文件,以尝试分区发现。
我有如下格式的文件。
prefix-yyyyMMdd/
如何在最后7天内一次性加载文件夹。?
因为它是运行日期,所以我不能使用预定义的正则表达式来加载数据,因为我必须考虑月份和年份的变化。
我有几个蛮力的解决方案
这两种方法的性能都不高,而且考虑到每个文件数据本身都是巨大的,我想知道是否有更好的解决方案。
有更好的方法吗?
发布于 2019-07-05 22:49:53
DataFrameReader方法可以采取多种路径。
spark.read.parquet("prefix-20190704", "prefix-20190703", ...)
https://stackoverflow.com/questions/56909402
复制相似问题