首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >AWS glue中包含哪些数据类别?

AWS glue中包含哪些数据类别?
EN

Stack Overflow用户
提问于 2019-07-25 07:39:16
回答 1查看 214关注 0票数 1

我正在通过aws glue爬行数据到数据目录。但是我对数据库的定义有点困惑。根据我在亚马逊网络服务文档A database in the AWS Glue Data Catalog is a container that holds tables. You use databases to organize your tables into separate categories.中找到的信息。我想知道数据库到底包含了什么。它是否加载来自其他数据源的所有数据并在这些数据源上创建目录?或者它只包含目录?如何知道glue数据库中表的大小?以及它使用的数据库类型,如nosqlrds

例如,我创建了一个爬虫程序来从s3加载数据,并在glue中创建了一个目录表。glue表是否包含来自s3 bucket的所有数据?如果我删除s3存储桶,是否会影响glue中针对爬虫创建的目录表运行的其他作业?

如果目录表只包含数据模式,如果我的数据源被修改,我如何保持它对数据的更新?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-26 01:34:11

Catalog只是一个元数据存储。它的任务是记录其他地方的数据,并将其导出到其他工具,如Athena或EMR,以便他们可以发现数据。

数据不会复制到目录中,但会保留在源目录中。如果从目录中删除该表,则源中的数据保持不变。

如果您删除了源数据(如您在问题中所述),其他服务将无法再访问该数据,因为它已被删除。如果您再次运行爬虫程序,它应该会检测到它不在那里。

如果要使crawler架构保持最新,可以安排crawler自动运行,也可以在数据发生更改时按需执行。当爬虫程序再次运行时,它会相应地更新记录的数量、分区,甚至架构中的更改。请参考the documentation以了解架构中的更改可能对您的目录产生的影响。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57192520

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档