首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在我的CF模板中设置胶水爬行器RecrawlPolicy

如何在我的CF模板中设置胶水爬行器RecrawlPolicy
EN

Stack Overflow用户
提问于 2020-11-07 04:43:30
回答 1查看 908关注 0票数 2

我希望将glue爬虫程序设置为仅爬行s3存储桶中的新文件夹。根据文档,看起来我想将RecrawlBehavior设置为CRAWL_NEW_FOLDERS_ONLY。但是我找不到任何关于如何在CloudFormation模板中做到这一点的指导。

这现在是我的爬虫程序的配置属性,但是我对RecrawlBehavior的使用是无效的:

代码语言:javascript
运行
复制
Configuration: "{\"Version\":1.0,\"RecrawlBehavior\":\"CRAWL_NEW_FOLDERS_ONLY\",\"CrawlerOutput\":{\"Partitions\":{\"AddOrUpdateBehavior\":\"InheritFromTable\"},\"Tables\":{\"AddOrUpdateBehavior\":\"MergeNewColumns\"}}}"
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-24 04:35:41

根据我的理解,增量策略是Glue中的一个相对较新的功能,在云形成中还不支持。

我建议的一个解决方法是使用cloudformation创建一个爬虫,然后使用AWS CLI更新它的RecrawlPolicy属性。

当您使用cloudformation创建爬网程序并尝试使用命令行界面检索其属性时,RecrawlPolicy“将"RecrawlBehavior”“设置为"CRAWL_EVERYTHING”。您可以使用以下命令将其更改为增量爬网(仅对新文件夹进行爬网)。“

代码语言:javascript
运行
复制
aws glue update-crawler 
    --name <crawlername> 
    --recrawl-policy '{"RecrawlBehavior": "CRAWL_NEW_FOLDERS_ONLY"}' 
    --schema-change-policy '{"UpdateBehavior":"LOG","DeleteBehavior":"LOG"}'
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64721343

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档