Glue Crawler无法排除.csv.metadata文件

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (1)
  • 关注 (0)
  • 查看 (24)

我有一个S3位置s3://bucket-name/folder-name/,它由一个子文件夹组成,其名称是动态生成的,包含短语_Top10InvoiceIds。此子文件夹由.csv.csv.metadata文件组成。我使用胶水爬虫只抓取csv文件并在Athena中查看它们。但我无法排除这些.csv.metadata文件。我已经尝试了所有可能的正则表达式模式作为glob值。

我的一些尝试是:

  1. *_Top10InvoiceIds/ *.metadata
  2. *_Top10InvoiceIds/ * .* metadata
  3. *_Top10InvoiceIds/ *. *.metadata
  4. *_Top10InvoiceIds/ * .csv.metadata
  5. ** .metadata
  6. * .metadata
  7. * .csv.metadata
  8. * /*.metadata

如果有人可以帮助我找出模式或提出另一种做同样的方法,那就太好了。

提问于
用户回答回答于

尝试使用**/*.csv.metadata**/*.metadata排除模式

扫码关注云+社区

领取腾讯云代金券