首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >胶水S3目标路径匹配两级特定子文件夹

胶水S3目标路径匹配两级特定子文件夹
EN

Stack Overflow用户
提问于 2019-02-28 03:22:30
回答 2查看 652关注 0票数 4
代码语言:javascript
运行
复制
bucket/
├── seoul/
│   ├── weather/
│   │   └── data.json
│   └── gdp/
│       └── data.json
├── tokyo/
│   ├── weather/
│   │   └── data.json
│   ├── gdp/
│   │   └── data.json
│   └── transit/
│       └── data.json
├── seattle/
│   ├── weather/
│   │   └── data.json
│   └── cost-of-living/
│       └── data.json
├ ....

我想在我的桶里抓取所有的weather数据。如AWS医生中所述,我将S3目标路径设置为

代码语言:javascript
运行
复制
s3://bucket/*/weather

然而,胶水爬虫不匹配任何数据。创建0张表。我应该如何设置胶水目标,以便我可以收集所有天气数据?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-03-01 12:39:35

排斥模式支持Glob模式。因此,对于您的情况,尝试将目标设置为s3://bucket/,并为*/gdp/**,*/transit/**,*/cost-of-living/**添加排除

票数 1
EN

Stack Overflow用户

发布于 2019-03-01 18:49:06

如果没有多少文件夹可以排除,@有很好的答案。但是,在我的例子中,有许多文件夹要排除,它不能保证当前的文件树是固定的。

因此,我将构建嵌套 cloudFormation。

  1. 基本云形成:以城市为输入,运行爬虫。
  2. 特长云格式模板:给出城市名称作为参数,并调用基cloudformation。
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54917902

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档