首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >添加列时,应该如何更改Glue Crawler设置?

添加列时,应该如何更改Glue Crawler设置?
EN

Stack Overflow用户
提问于 2022-11-24 00:26:23
回答 1查看 12关注 0票数 0

我在一个IoT项目中。

我将IoT数据从IoT设备中保存到S3中。有7种数据,所以我将它们保存到S3的7个子文件夹中。

我设置了下面的爬虫:

仅-Crawl新的子文件夹

-Create为每个S3路径创建一个单一模式

当第一次完成爬虫时,我将所有列的方案和分区更改为string。

进展得很好。

但是有一天,新数据的列将被添加,您能告诉我如何更改爬虫的设置以获得包含所有列的新模式吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-11-25 12:33:06

根据这里的AWS文档,https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html有三个选项

更新数据目录中的表定义--添加新列,删除缺少的列,并修改AWS数据目录中现有列的定义。删除爬行器未设置的任何元数据。这是默认设置。

只添加新列-对于映射到Amazon数据存储区的表,在发现新列时添加新列,但不要删除或更改数据目录中现有列的类型。当数据目录中的当前列正确且不希望爬虫移除或更改现有列的类型时,请选择此选项。如果基本的Amazon表属性发生更改,如分类、压缩类型或CSV分隔符,则将表标记为不推荐使用。保持数据目录中存在的输入格式和输出格式。只有当参数是由爬虫设置的参数时才更新SerDe参数。对于所有其他数据存储,修改现有列定义。

忽略更改,不要更新数据目录中的表--只创建新表和分区。

最近我也遇到了同样的问题,爬虫被设置为默认配置,即“忽略更改,不要更新数据目录中的表”,但是我需要添加几个列。因此,我将爬虫配置更改为“添加新列”,并运行爬虫以获取模式中的新列。请参阅文件,它将适用于爬虫中的所有数据源。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/74554358

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档