首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >仅将一个s3分区文件添加到AWS Glue

仅将一个s3分区文件添加到AWS Glue
EN

Stack Overflow用户
提问于 2019-12-17 03:26:32
回答 1查看 106关注 0票数 0

当涉及到在我的s3存储桶中运行爬虫时,我遇到了一些小问题。我的文件夹中有从redshift中转储的数据,这些数据被分成许多不同的文件。这些文件的命名约定如下:

dump_0000_part_00.gz,dump_0001_part_01.gz ....

然而,当我的爬虫程序获取这个文件夹中的元数据时,它会生成几百个表,并认为这些切片文件中的每一个都是它自己的表。有没有办法告诉爬虫将所有这些切片文件分组到一个目录表中?

EN

回答 1

Stack Overflow用户

发布于 2019-12-17 07:12:38

配置爬虫程序(或编辑现有爬虫程序)时,在Output部分下,展开Grouping behavior for S3 data (optional)并选择Create a single schema for each S3 path

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59363093

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档