我正在通过aws glue爬行数据到数据目录。但是我对数据库的定义有点困惑。根据我在亚马逊网络服务文档A database in the AWS Glue Data Catalog is a container that holds tables. You use databases to organize your tables into separate categories.中找到的信息。我想知道数据库到底包含了什么。它是否加载来自其他数据源的所有数据并在这些数据源上创建目录?或者它只包含目录?如何知道glue数据库中表的大小?以及它使用的数据库类型,如nosql、rds
例如,我创建了
有没有办法在Glue Catalog中创建或更新表? 我们使用以下DDL在Glue Catalog中创建一个表(和数据库): CREATE DATABASE IF NOT EXISTS glue_catalog;
CREATE EXTERNAL TABLE IF NOT EXISTS glue_catalog.date
(
file_dt date,
end_dt date
)
PARTITIONED BY (
year string,
month string
)
ROW FORMAT DELIMITED
FIEL
我有一个从火喉到S3的事件流,然后由Glue爬行,定期创建新的分区,并更新要在雅典娜中查询的表的架构。
突然,我们的查询开始失败。
HIVE_BAD_DATA: Error parsing field value for field 1: For input string: "11642224428"
因此,我们怀疑Glue最初推断为INT的字段之一现在必须更改为BIGINT。由于某些原因,爬虫没有自动完成,所以我们需要修复它。
显而易见的尝试是将表模式从struct<...,field:int,...>编辑为struct<...,field:bigint,.
我在AWS雅典娜有一个数据库,里面有一堆表。我想使用AWS Glue Studio执行这些表的连接。我已经订阅了亚马逊雅典娜的CData AWS胶水连接器。当我尝试使用此连接器创建连接并连接到AWS Athena中的一个表时,我收到以下错误: Py4JJavaError: An error occurred while calling o61.getSource. : java.lang.AssertionError: assertion failed: Glue ETL Marketplace: Either user/password or secretId should be prov