我希望将glue爬虫程序设置为仅爬行s3存储桶中的新文件夹。根据文档,看起来我想将RecrawlBehavior设置为CRAWL_NEW_FOLDERS_ONLY。但是我找不到任何关于如何在CloudFormation模板中做到这一点的指导。
这现在是我的爬虫程序的配置属性,但是我对RecrawlBehavior的使用是无效的:
Configuration: "{\"Version\":1.0,\"RecrawlBehavior\":\"CRAWL_NEW_FOLDERS_ONLY\",\"CrawlerOutput\":{\"Partitions\":{\"AddOrUpdateBehavior\":\"InheritFromTable\"},\"Tables\":{\"AddOrUpdateBehavior\":\"MergeNewColumns\"}}}"
发布于 2020-11-24 04:35:41
根据我的理解,增量策略是Glue中的一个相对较新的功能,在云形成中还不支持。
我建议的一个解决方法是使用cloudformation创建一个爬虫,然后使用AWS CLI更新它的RecrawlPolicy属性。
当您使用cloudformation创建爬网程序并尝试使用命令行界面检索其属性时,RecrawlPolicy“将"RecrawlBehavior”“设置为"CRAWL_EVERYTHING”。您可以使用以下命令将其更改为增量爬网(仅对新文件夹进行爬网)。“
aws glue update-crawler
--name <crawlername>
--recrawl-policy '{"RecrawlBehavior": "CRAWL_NEW_FOLDERS_ONLY"}'
--schema-change-policy '{"UpdateBehavior":"LOG","DeleteBehavior":"LOG"}'
https://stackoverflow.com/questions/64721343
复制相似问题