问胶水爬行器无法排除.csv.metadata文件
EN

Stack Overflow用户

提问于 2019-02-19 16:16:50

回答 2查看 1.6K关注 0票数 4

我有一个S3位置s3://bucket-name/folder-name/，它由一个子文件夹组成，该子文件夹的名称是动态生成的，其中包含短语_Top10InvoiceIds。该子文件夹由.csv和.csv.metadata文件组成。我使用胶水爬虫只爬行csv文件，并在雅典娜中查看它们。但我无法排除.csv.metadata文件。我已经尝试了所有可能的正则表达式模式作为glob值。

我的一些尝试是：

*_Top10InvoiceIds/ *.metadata
*_Top10InvoiceIds/ * .* metadata
*_Top10InvoiceIds/ *. *.metadata
*_Top10InvoiceIds/ * .csv.metadata
** .metadata
* .metadata
* .csv.metadata
* /*.metadata

如果有人能帮我弄清楚这个模式或提出另一种方法来做同样的事情，那就太好了。

amazon-s3

aws-glue

aws-glue-data-catalog

回答 2

Stack Overflow用户

发布于 2020-01-09 12:27:14

这里给你一个简单的答案：

雅典娜将不会荣誉胶水排除模式。这些模式只是为了排除你不想在抓取时扫描的不必要的文件，并在Glue ETL.So中使用如果你想要排除这些.metadata文件，那么你需要编写一个自动化的脚本来删除它们。

票数 3

Stack Overflow用户

发布于 2019-02-20 02:49:02

尝试使用**/*.csv.metadata或**/*.metadata排除模式

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54761568

复制

相似问题

问胶水爬行器无法排除.csv.metadata文件
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问胶水爬行器无法排除.csv.metadata文件EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问胶水爬行器无法排除.csv.metadata文件
EN