我有一个S3位置s3://bucket-name/folder-name/
,它由一个子文件夹组成,该子文件夹的名称是动态生成的,其中包含短语_Top10InvoiceIds
。该子文件夹由.csv
和.csv.metadata
文件组成。我使用胶水爬虫只爬行csv文件,并在雅典娜中查看它们。但我无法排除.csv.metadata
文件。我已经尝试了所有可能的正则表达式模式作为glob值。
我的一些尝试是:
*_Top10InvoiceIds/ *.metadata
*_Top10InvoiceIds/ * .* metadata
*_Top10InvoiceIds/ *. *.metadata
*_Top10InvoiceIds/ * .csv.metadata
** .metadata
* .metadata
* .csv.metadata
* /*.metadata
如果有人能帮我弄清楚这个模式或提出另一种方法来做同样的事情,那就太好了。
发布于 2020-01-09 12:27:14
这里给你一个简单的答案:
雅典娜将不会荣誉胶水排除模式。这些模式只是为了排除你不想在抓取时扫描的不必要的文件,并在Glue ETL.So中使用如果你想要排除这些.metadata文件,那么你需要编写一个自动化的脚本来删除它们。
发布于 2019-02-20 02:49:02
尝试使用**/*.csv.metadata
或**/*.metadata
排除模式
https://stackoverflow.com/questions/54761568
复制相似问题