我正在通过aws glue
爬行数据到数据目录。但是我对数据库的定义有点困惑。根据我在亚马逊网络服务文档A database in the AWS Glue Data Catalog is a container that holds tables. You use databases to organize your tables into separate categories.
中找到的信息。我想知道数据库到底包含了什么。它是否加载来自其他数据源的所有数据并在这些数据源上创建目录?或者它只包含目录?如何知道glue数据库中表的大小?以及它使用的数据库类型,如nosql
、rds
例如,我创建了一个爬虫程序来从s3
加载数据,并在glue
中创建了一个目录表。glue
表是否包含来自s3 bucket
的所有数据?如果我删除s3
存储桶,是否会影响glue中针对爬虫创建的目录表运行的其他作业?
如果目录表只包含数据模式,如果我的数据源被修改,我如何保持它对数据的更新?
发布于 2019-07-26 01:34:11
Catalog只是一个元数据存储。它的任务是记录其他地方的数据,并将其导出到其他工具,如Athena或EMR,以便他们可以发现数据。
数据不会复制到目录中,但会保留在源目录中。如果从目录中删除该表,则源中的数据保持不变。
如果您删除了源数据(如您在问题中所述),其他服务将无法再访问该数据,因为它已被删除。如果您再次运行爬虫程序,它应该会检测到它不在那里。
如果要使crawler架构保持最新,可以安排crawler自动运行,也可以在数据发生更改时按需执行。当爬虫程序再次运行时,它会相应地更新记录的数量、分区,甚至架构中的更改。请参考the documentation以了解架构中的更改可能对您的目录产生的影响。
https://stackoverflow.com/questions/57192520
复制相似问题