文章/答案/技术大牛

发布

社区首页 >问答首页 >AWS glue中包含哪些数据类别？

问AWS glue中包含哪些数据类别？
EN

Stack Overflow用户

提问于 2019-07-25 07:39:16

回答 1查看 214关注 0票数 1

我正在通过aws glue爬行数据到数据目录。但是我对数据库的定义有点困惑。根据我在亚马逊网络服务文档A database in the AWS Glue Data Catalog is a container that holds tables. You use databases to organize your tables into separate categories.中找到的信息。我想知道数据库到底包含了什么。它是否加载来自其他数据源的所有数据并在这些数据源上创建目录？或者它只包含目录？如何知道glue数据库中表的大小？以及它使用的数据库类型，如nosql、rds

例如，我创建了一个爬虫程序来从s3加载数据，并在glue中创建了一个目录表。glue表是否包含来自s3 bucket的所有数据？如果我删除s3存储桶，是否会影响glue中针对爬虫创建的目录表运行的其他作业？

如果目录表只包含数据模式，如果我的数据源被修改，我如何保持它对数据的更新？

aws-glue

aws-glue-data-catalog

amazon-web-services

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-26 01:34:11

Catalog只是一个元数据存储。它的任务是记录其他地方的数据，并将其导出到其他工具，如Athena或EMR，以便他们可以发现数据。

数据不会复制到目录中，但会保留在源目录中。如果从目录中删除该表，则源中的数据保持不变。

如果您删除了源数据(如您在问题中所述)，其他服务将无法再访问该数据，因为它已被删除。如果您再次运行爬虫程序，它应该会检测到它不在那里。

如果要使crawler架构保持最新，可以安排crawler自动运行，也可以在数据发生更改时按需执行。当爬虫程序再次运行时，它会相应地更新记录的数量、分区，甚至架构中的更改。请参考the documentation以了解架构中的更改可能对您的目录产生的影响。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57192520

复制

相似问题

问AWS glue中包含哪些数据类别？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问AWS glue中包含哪些数据类别？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问AWS glue中包含哪些数据类别？
EN