文章/答案/技术大牛

发布

社区首页 >问答首页 >仅将一个s3分区文件添加到AWS Glue

问仅将一个s3分区文件添加到AWS Glue
EN

Stack Overflow用户

提问于 2019-12-17 03:26:32

回答 1查看 106关注 0票数 0

当涉及到在我的s3存储桶中运行爬虫时，我遇到了一些小问题。我的文件夹中有从redshift中转储的数据，这些数据被分成许多不同的文件。这些文件的命名约定如下：

dump_0000_part_00.gz，dump_0001_part_01.gz ....

然而，当我的爬虫程序获取这个文件夹中的元数据时，它会生成几百个表，并认为这些切片文件中的每一个都是它自己的表。有没有办法告诉爬虫将所有这些切片文件分组到一个目录表中？

发布于 2019-12-17 07:12:38

配置爬虫程序(或编辑现有爬虫程序)时，在Output部分下，展开Grouping behavior for S3 data (optional)并选择Create a single schema for each S3 path

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59363093

复制

相似问题

问仅将一个s3分区文件添加到AWS GlueEN