当涉及到在我的s3存储桶中运行爬虫时,我遇到了一些小问题。我的文件夹中有从redshift中转储的数据,这些数据被分成许多不同的文件。这些文件的命名约定如下:
dump_0000_part_00.gz,dump_0001_part_01.gz ....
然而,当我的爬虫程序获取这个文件夹中的元数据时,它会生成几百个表,并认为这些切片文件中的每一个都是它自己的表。有没有办法告诉爬虫将所有这些切片文件分组到一个目录表中?
发布于 2019-12-17 07:12:38
配置爬虫程序(或编辑现有爬虫程序)时,在Output部分下,展开Grouping behavior for S3 data (optional)并选择Create a single schema for each S3 path
https://stackoverflow.com/questions/59363093
复制相似问题