bucket/
├── seoul/
│ ├── weather/
│ │ └── data.json
│ └── gdp/
│ └── data.json
├── tokyo/
│ ├── weather/
│ │ └── data.json
│ ├── gdp/
│ │ └── data.json
│ └── transit/
│ └── data.json
├── seattle/
│ ├── weather/
│ │ └── data.json
│ └── cost-of-living/
│ └── data.json
├ ....
我想在我的桶里抓取所有的weather
数据。如AWS医生中所述,我将S3目标路径设置为
s3://bucket/*/weather
然而,胶水爬虫不匹配任何数据。创建0张表。我应该如何设置胶水目标,以便我可以收集所有天气数据?
发布于 2019-03-01 12:39:35
排斥模式支持Glob模式。因此,对于您的情况,尝试将目标设置为s3://bucket/
,并为*/gdp/**,*/transit/**,*/cost-of-living/**
添加排除
发布于 2019-03-01 18:49:06
如果没有多少文件夹可以排除,@有很好的答案。但是,在我的例子中,有许多文件夹要排除,它不能保证当前的文件树是固定的。
因此,我将构建嵌套 cloudFormation。
https://stackoverflow.com/questions/54917902
复制相似问题