Glue中是否有更新表的选项？_是否有显示其他工作表中的值的选项？_snowflake中是否有保存或加载工作表的选项？ - 腾讯云开发者社区

amazon-web-services、amazon-redshift、aws-glue

我知道没有直接的UPSERT查询可以直接从Glue执行到Redshift。是否可以在glue脚本本身中实现临时表概念？因此，我的期望是创建临时表，将其与目标表合并，最后将其删除。它能在Glue脚本中实现吗？

浏览 2提问于2018-04-09得票数 3

1回答

胶爬行器创建多个表

amazon-web-services、aws-glue、aws-glue-data-catalog

我有2个S3桶，格式如下： s3://bucket/{lob_name_1}/{table_name}/{current_date}/table_name.csvs3://bucket/{lob_name_2}/{table_name}/{current_date}/table_name.csv 我们的表名属于两个不同的LOB，每个LOB有一个AWS Glue爬虫。当爬行器为第一个LOB运行时，将按预期创建表。当爬虫为第二个LOB运行时，LOB 1和LOB 2之间的表将用不同的名称重新创建。在第二个LOB的爬虫运行时，我们是否可以防止创建额外的表？

浏览 4提问于2022-10-05得票数 0

1回答

防止AWS glue crawler创建多个表

aws-glue

我创建了一个glue爬虫，它爬行数据并在glue数据目录中创建表。假设我有一个CSV文件(file1.csv)，它的模式类似于(id，name)，一旦爬虫作业执行完毕，它就会创建包含2列(id，name)的雅典娜表(crawler_file)。现在有了一个新文件(file2.csv)，它的模式类似于(id，name，roll_no)。目前，当glue爬虫正在执行时，它正在创建一个新的带有模式(id，name，roll_no)的雅典娜表(crawler_file_111)。我是否可以这样配置crawler，使crawler不创建新表，而是更新表的现有架构？在这个场景中，它应该更新现有的雅典娜表(

浏览 13提问于2018-12-19得票数 2

回答已采纳

1回答

我们能换张胶水的桌子吗？

aws-glue、aws-glue-data-catalog

如果我使用Glue作为亚稳态，是否可以更改现有表(比如添加新列或更改列的数据类型)？唯一能找到的方法是删除现有的表，然后用更改的模式创建一个新表。如果存在修改现有表本身的方法，请提供帮助。编辑-我的意思是要求通过Glue API更新模式，而不是通过AWS Glue UI更新，因为我只能找到API来创建或删除表，而不能更改表。

浏览 6提问于2020-09-07得票数 0

1回答

AWS glue中包含哪些数据类别？

amazon-web-services、aws-glue、aws-glue-data-catalog

我正在通过aws glue爬行数据到数据目录。但是我对数据库的定义有点困惑。根据我在亚马逊网络服务文档A database in the AWS Glue Data Catalog is a container that holds tables. You use databases to organize your tables into separate categories.中找到的信息。我想知道数据库到底包含了什么。它是否加载来自其他数据源的所有数据并在这些数据源上创建目录？或者它只包含目录？如何知道glue数据库中表的大小？以及它使用的数据库类型，如nosql、rds 例如，我创建了

浏览 17提问于2019-07-25得票数 1

回答已采纳

1回答

AWS Glue删除源上已删除的目标数据

amazon-web-services、aws-glue

我计划使用AWS Glue将数据从源数据库发送/转换到目标数据库。我想知道Glue是否可以这样做：将一行数据添加到我的源。 Glue ETL作业运行并提取并将上面提到的行从我的源转换到我的目标。从源中删除步骤1中添加的数据行。 Glue ETL作业运行并删除从源中删除的目标数据。这里提到的第四点可能吗？如果有可能，如何在Glue ETL作业中实现它？

浏览 3提问于2022-06-08得票数 0

3回答

无法填充AWS Glue ETL作业指标

amazon-web-services、amazon-s3、amazon-redshift、metrics、aws-glue

我正在尝试为某些测试填充最大可能的Glue作业度量，下面是我创建的设置：爬虫从放置在S3桶中的CSV文件中读取数据(虚拟500行客户数据)。使用另一个爬虫来爬行在Redshift集群中创建的表。 ETL作业最终从s3中的csv文件中读取数据，并将其转储到Redshift表中。作业正在运行，没有任何问题，我可以看到最终数据被转储到Redshift表中，但是，最终只填充了不到5个Cloudwatch度量标准： glue.jvm.heap.usage glue.jvm.heap.used glue.s3.filesystem.read_bytes glue.

浏览 0提问于2020-04-27得票数 2

1回答

我们是否可以使用jdbc访问AWS胶水表？

amazon-web-services、amazon-emr、aws-glue、aws-glue-data-catalog

我需要访问AWS Glue中的一些表，我将其用作中间存储。我想知道Glue是否提供了jdbc端点来连接它，就像HIVE一样。我知道可以使用JDBC从MYSQL、Oracle等其他数据库读取数据到AWS glue中，但我的要求正好相反，我必须使用JDBC从AWS glue中读取数据。如果可能的话，请帮忙，因为我找不到这方面的参考资料。

浏览 0提问于2020-06-29得票数 1

2回答

为S3和未知模式中的数据创建Glue数据目录中的表

amazon-web-services、amazon-s3、amazon-redshift、aws-glue、aws-glue-data-catalog

我当前的用例是，在基于ETL的服务(NOTE：ETL服务不使用Glue ETL，它是一个独立的服务)中，我从AWS集群获得一些数据到S3中。然后将S3中的数据输入T和L作业。我想将元数据填充到Glue目录中。最基本的解决方案是使用Glue Crawler，但是爬虫运行大约1小时20分钟(很多s3分区)。我遇到的另一个解决方案是使用Glue API，但是，我也面临着数据类型定义的问题。是否有任何方法，我可以创建/更新Glue目录表，在那里我有数据在S3和数据类型只知道在提取过程中。而且，当运行T和L作业时，数据类型应该在目录中随时可用。

浏览 4提问于2020-08-14得票数 1

回答已采纳

1回答

AWS Glue crawler无法识别与历史文件一致的CSV架构

aws-glue

我们有一个包含.csv和.ctl文件的文件夹。CSV是一段时间内每天总共五个文件。它们的命名约定是一个前缀字符串，后跟一个日期标识符(例如: ABCDE090619.csv)。五个日常文件的标题行在一段时间内是一致的。 Glue crawler的预期行为是识别五个表模式，并在每个表中为day数据创建一行。相反，crawler会为每个文件创建一个单独的架构。总共大约550个。有没有什么机制可以驱动这种行为呢？我们目前考虑的因素包括命名约定，但根据Glue文档，只有文件模式才是重要的。谢谢。

浏览 18提问于2019-09-07得票数 0

回答已采纳

1回答

为什么新的列被添加到拼花表中，而无法从胶水的pyspark作业中获得？

pyspark、parquet、aws-glue

我们一直在探索如何使用Glue将一些JSON数据转换为parquet。我们尝试过的一种情况是在拼花表中添加一列。所以分区1有A列，分区2有A，B列，然后我们想编写进一步的Glue ETL作业来聚合parquet表，但是新列不可用。使用glue_context.create_dynamic_frame.from_catalog加载动态框架，我们的新列从未出现在模式中。我们为我们的爬行器尝试了几种配置。对所有分区使用单一架构，对s3路径使用单个架构，对每个分区使用架构。我们总是可以在Glue表数据中看到新列，但是如果我们使用pyspark从Glue作业中查询它，那么它总是空的。当我们下载一些样本

浏览 4提问于2019-04-09得票数 8

2回答

我应该每次运行Glue爬虫来获取最新的数据吗？

amazon-web-services、amazon-s3、aws-glue、aws-glue-data-catalog、aws-glue-spark

我有一个名为Employee的S3桶。每隔三个小时，我就会在桶里得到一个带有时间戳的文件。我将使用Glue作业将文件从S3移动到Redshift，并进行一些转换。我在S3桶中的输入文件将有一个固定的结构。我的Glue作业将使用通过爬行器在数据目录中创建的表作为输入。第一轮： datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "test", table_name = "employee_623215", transformation_ctx = "datasour

浏览 2提问于2020-06-23得票数 3

回答已采纳

1回答

带有DynamoDB数据源和Glue爬虫的AWS雅典娜有不区分大小写的列。

amazon-dynamodb、aws-glue、amazon-athena

我将AWS雅典娜DynamoDB连接器部署到我的帐户中，并为DynamoDB表创建了Glue Crawler。问题是Glue中的模式不区分大小写，当我通过DynamoDB连接器在雅典娜中使用该表时，我在列中的投影就没有价值了。我怀疑这是由不区分大小写的列名造成的(都是小写的)。我有带有Glue的两个表和没有Glue元数据的表，以及在没有Glue支持工作的Athena连接器中检测到的表(列名区分大小写，格式正确)。是否有任何方法配置Glue与DynamoDB，以满足大小写敏感性？我甚至试图手动更改Glue中的列名，但是在保存时，所有内容都是小写的。

浏览 5提问于2022-07-28得票数 0

1回答

胶加载作业不保留红移中的默认列值

amazon-redshift、aws-glue

我有一个Glue作业，它将CSV从S3加载到一个红移表中。有1列(updated_date)没有映射。该列的默认值在UTC中设置为current_timestamp。但是每次Glue作业运行时，这个updated_date列都是空的。我尝试从Glue元数据表中删除updated_dt。我尝试在Glue脚本中从updated_dt ()中删除SelectFields.apply。当我在Redshift中不使用updated_dt列执行普通insert语句时，将为这些行插入默认的current_timestamp()值。谢谢

浏览 1提问于2021-03-25得票数 0

1回答

在AWS胶中添加数据列

aws-glue

我找不到合适的子社区，所以我希望我的问题适合这里。我目前正在使用S3、Lambda、Redshift和Glue为AWS上的分析解决方案设置ETL管道。这样做时，我无意中发现了一个用例，我认为这是平常的事，但我在google上没有发现太多。我的问题是，几个月来，我一直在从第三方资源中提取数据，直到发现我遗漏了几个专栏文章，这样才会更好。在最初的设置中，只要重置所有内容并用一个新的数据表(包括胶水和红移)重新加载所有内容都不是什么大问题，但是这需要花费大量的资金。在不创建一个全新的表的情况下，向Glue数据目录中的现有数据表添加数据列的好方法是什么？对于先前存在的行，我可以仅使用空(或空)值

浏览 1提问于2019-01-28得票数 2

4回答

如何通过cloudformation为glue crawler设置“从表继承模式”？

amazon-web-services、amazon-cloudformation、aws-glue

aws glue crawler的web colsole中的Schema change policy部分包含3个点，而CloudFormation节模板只定义了2个点。是否有方法从cloudformation中设置"Inherit schema from table“参数？

浏览 0提问于2018-01-19得票数 4

3回答

是否有人使用AWS Glue to snowflake构建了数据管道？寻找解决方案

amazon-web-services、pyspark、snowflake-cloud-data-platform、aws-glue、aws-glue-data-catalog

我是AWS和snowflake的新手。我希望从S3加载csv文件到各自的雪花表(大约100个表)使用亚马逊网络服务胶水。我可以使用下面的文章将数据加载到一个雪花表中是否可以使用1个aws glue来加载表格列表？ AWS Glue内部-我们可以编写逻辑来基于csv文件在snowflake中更新或插入数据吗？请建议并分享任何示例代码/solutions，如果有。谢谢，乔

浏览 0提问于2020-04-10得票数 0

1回答

使用Glue抓取S3，添加一些要忽略的文件，并仍然保留其雅典娜数据？

amazon-web-services、aws-glue、amazon-athena

我有一个遵循以下格式的S3文件集合： date=10001 abc.json bcd.json cdf.json date=10002 ... date=20001 ... Glue对这些文件进行爬行，以便在Athena中创建一个表(分区为date)。一旦创建了S3文件，它就永远不会被更新或删除，因此重新爬网是多余的。为此，我尝试让Glue忽略我知道已经被爬行的文件。为此，我在exclude patterns字段下添加了10** -这是有效的- Glue不会重新爬行这些文件，并且更新我的表的时间是四分之一的。但是，当我试图访问其中一个被忽略的日期(例如- dat

浏览 0提问于2020-03-04得票数 1

1回答

Boto3启动胶爬行器与新的s3输入

amazon-web-services、amazon-s3、aws-sdk、amazon-athena、aws-glue

我有一个亚马逊胶水爬虫，它查看一个特定的s3位置，包含avro文件。我有一个进程，它在那个位置的一个新的子文件夹中输出文件。一旦我手动运行爬虫，新的子文件夹将被视为数据库中的一个新表，它也将是可从雅典娜查询的。有什么方法可以使进程自动化，并以编程方式调用爬虫，但只指定新的子文件夹，这样它就不必扫描整个父文件夹结构了吗？我希望将表添加到数据库中，而不是将分区添加到现有表中。我正在寻找Python选项，我确实看到了这样一个选项： import boto3 glue_client = boto3.client('glue', region_name='us-east-1

浏览 0提问于2018-08-21得票数 1

回答已采纳

1回答

AWS雅典娜表自动出现在AWS Glue控制台中。

amazon-web-services、amazon-s3、etl、amazon-athena、amazon-glue

我最近发现AWS雅典娜表可能有一个分区数量的限制(目前有20000个分区，这里提到的是：)。同一页提到AWS Glue表可能有1,000万个分区，因此我打开AWS Glue控制台来重新创建我到目前为止在Athena中使用的表，并且惊讶地看到我在Athena控制台中创建的所有表都列在AWS Glue console中。因此，有一个问题，这是否意味着在雅典娜控制台中创建的每个表都将是一个AWS Glue表，并将支持1000万个分区？我目前正在使用雅典娜SDK ()来选择数据并将数据从表t1加载到表t2中，使用INSERT INTO查询动态生成Hive格式的分区(即col1=<...&g

浏览 19提问于2022-06-15得票数 1

回答已采纳

1回答

如何使用AWS Glue ETL加载dynamodb表

amazon-dynamodb、aws-glue

使用AWS Glue加载dynamodb表的简单方法是使用Glue Crawler加载。这是在中描述的，现在我想知道是否有一种方法可以直接使用AWS Glue ETL加载dynamodb表，比如说，不需要AWS Glue Crawler。我没有找到任何相关的话题，所以任何人都可以帮助我非常感谢。

浏览 1提问于2018-11-13得票数 4

5回答

如何使用AWS胶将多个CSV文件转换为Parquet

amazon-s3、parquet、amazon-athena、aws-glue

我使用AWS S3、Glue和Athena，设置如下： S3 -> Glue -->雅典娜我的原始数据作为CSV文件存储在S3上。我使用Glue for ETL，使用Athena查询数据。由于我使用雅典娜，我想把CSV文件转换为Parquet。我现在用AWS胶来做这个。这是我正在使用的当前过程：运行Crawler读取CSV文件并填充数据目录。运行ETL作业，从数据目录创建Parquet文件。运行一个Crawler来使用Parquet文件填充数据目录。 Glue作业只允许我一次转换一个表。如果我有许多CSV文件，这个过程就会很快变得难以管理。是否有更好的

浏览 1提问于2018-04-23得票数 16

回答已采纳

4回答

红移谱:查询匿名JSON数组结构

amazon-web-services、amazon-redshift、aws-glue、amazon-redshift-spectrum

我在S3中有一个JSON结构数组，它成功地被Glue爬行和编目。 [{"key":"value"}, {"key":"value"}] 我正在使用自定义分类器： $[*] 但是，当尝试从频谱查询时，它返回：顶级离子/JSON结构必须是匿名数组当且仅当设置了serde属性'strip.outer.array‘。文件中发生错配. 我在Glue目录表中手动设置了serde属性，但是没有什么改变。不可能通过频谱查询匿名数组吗？

浏览 2提问于2019-05-02得票数 3

3回答

用AWS胶覆盖MySQL表

mysql、amazon-web-services、pyspark、aws-glue

我有一个lambda进程，它偶尔会对最近的数据进行API轮询。这个数据有唯一的键，我想使用Glue更新MySQL中的表。是否有使用此键覆盖数据的选项？(类似于星火的mode=overwrite)。如果没有-在插入所有新数据之前，我是否能够在Glue中截断表？谢谢

浏览 8提问于2017-11-29得票数 8

回答已采纳

1回答

AWS Glue E2E实现和架构

aws-glue、aws-glue-spark

目前，我们正在从基于IBM数据存储的遗留内部数据仓库解决方案迁移到基于云的解决方案。我们有来自不同来源的增量信息的文件，我们需要将这些文件加载到我们的目标表中，同时维护每个事务的历史记录，因为我们需要根据PIT值进行报告。我们计划使用AWS GLUE和AWS PostGre来实现上述方法。这是正确的方法吗，因为我需要在Glue Jobs中进行大量的自定义转换？此外，为了检查/测试glue作业，是否有办法创建开发环境而不产生额外成本根据AWS标准文档创建开发端点是收费的

浏览 1提问于2021-05-24得票数 0

1回答

在Glue目录中构建表格

amazon-web-services、aws-glue、amazon-athena、aws-glue-data-catalog

有没有办法在Glue Catalog中创建或更新表？我们使用以下DDL在Glue Catalog中创建一个表(和数据库)： CREATE DATABASE IF NOT EXISTS glue_catalog; CREATE EXTERNAL TABLE IF NOT EXISTS glue_catalog.date ( file_dt date, end_dt date ) PARTITIONED BY ( year string, month string ) ROW FORMAT DELIMITED FIEL

浏览 39提问于2021-11-08得票数 0

1回答

Glue中是否有更新表的选项？

aws-glue、aws-glue-data-catalog

我将按天分区的数据存储在S3中，即customer/year=2020/month=04/day=05中，并且我有一个爬虫来编目这些数据。数据每天都会到达。在该示例中，Glue中是否有更新customer表的选项？例如，假设在day=06上发现了新客户，然后将其添加到表中，但是假设现有客户已经更新了字段，那么，是否有只更新表的选项？或者它是表中的新记录？目前，在配置crawler以发现分区数据时，分区字段会添加到记录中。我想我想知道的是，是否有可能经常有一个表来表示数据的最新状态？提前谢谢。K

浏览 34提问于2020-04-06得票数 2

1回答

如何向Amazon表添加新分区？

amazon-web-services、aws-glue

我有一个这样的文件结构： -year | -month | -day file1 file2 ... 和相应的Glue表，其中包含年份、月和日的分区。现在，我想添加一个新的分区，比如时间日，所以在向前推进时，结构将如下所示： -year | -month | -day -am file1 file2 ... -pm

浏览 3提问于2021-09-10得票数 0

1回答

AWS :拒绝访问具有S3源数据的表

amazon-web-services、amazon-s3、amazon-iam、aws-glue

我已经手动创建了一个Glue表，其中包含了S3存储库。 S3桶定义了一个桶策略，仅允许从根部我的user_id 或为Glue定义的角色现在，当另一个拥有AWSGlueConsoleFullAccess的用户尝试从Glue控制台访问表时，他将被拒绝访问，尽管Glue对S3桶具有服务访问权限。请帮助理解此行为。谢谢

浏览 0提问于2018-11-05得票数 0

1回答

Glue是否需要安全配置才能从加密的桶中运行Athena查询？

amazon-web-services、amazon-s3、encryption、amazon-athena、aws-glue

使用默认KMS密钥aws/s3在S3上使用服务器端加密以Apache格式存储数据。在Glue中创建数据库和表结构。使用Amazon对数据运行SQL查询。在这种情况下，我需要在Glue安全配置中启用S3加密吗？如果是，那么我可以根据数据库创建单独的安全配置吗？因为每个胶水数据库都会被附加到不同的桶上，有不同的加密密钥。我可以运行Athena SQL查询来读取数据，而不需要Glue加密。

浏览 1提问于2019-07-18得票数 0

回答已采纳

2回答

更新AWS Glue/Athena上的分区表模式

amazon-web-services、aws-glue

我有一个从火喉到S3的事件流，然后由Glue爬行，定期创建新的分区，并更新要在雅典娜中查询的表的架构。突然，我们的查询开始失败。 HIVE_BAD_DATA: Error parsing field value for field 1: For input string: "11642224428" 因此，我们怀疑Glue最初推断为INT的字段之一现在必须更改为BIGINT。由于某些原因，爬虫没有自动完成，所以我们需要修复它。显而易见的尝试是将表模式从struct<...,field:int,...>编辑为struct<...,field:bigint,.

浏览 23提问于2020-01-22得票数 1

1回答

有没有一种方法可以使用AWS胶水作业将“好”记录仅写入SQL Server表并返回“坏”记录？

sql-server、amazon-web-services、apache-spark、pyspark、aws-glue

我正在尝试编写一个粘合(PySpark)作业，执行一些ETL，并最终将数据写入SQL Server中的一个表(在AWS Glue Catalog中定义)。在将记录写入SQL Server表时，可能有一些约束(例如:主键、外键、列类型)阻止某些记录(即“坏”记录)被写入到表中。发生这种情况时，Glue作业会抛出一个错误，并且作业会失败。有没有一种方法可以防止整个作业失败？相反，是否可以只写入“好”记录，并将违反SQL Server的“坏”记录返回到Glue作业(以便可以将它们上载到S3)？我使用write_dynamic_frame_from_catalog函数将数据写入SQL Server

浏览 9提问于2019-04-10得票数 0

1回答

IAM CreateTable只允许在雅典娜上使用一个数据库

amazon-web-services、amazon-iam、amazon-athena

我有一个组，我希望对雅典娜中的一个数据库授予CreateTable权限，同时对同一组应用较小的权限，如对所有数据库的RunQuery。是否可以逐案对雅典娜数据库应用权限？例如，在下面的IAM策略中，我想让这个组能够在测试数据库中创建和删除表。来自 { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [

浏览 1提问于2018-06-27得票数 2

回答已采纳

3回答

从EMR迁移到AWS Glue后，在Spark SQL中找不到表

apache-spark、amazon-emr、aws-glue

我在EMR上有Spark作业，并且EMR被配置为对Hive和Spark元数据使用Glue目录。我创建了Hive外部表，它们出现在Glue目录中，我的Spark作业可以在Spark SQL中引用它们，比如spark.sql("select * from hive_table ...") 现在，当我尝试在Glue作业中运行相同的代码时，它失败了，并出现"table not found“错误。看起来Glue作业不像在EMR中运行Spark SQL那样使用Glue目录。我可以通过使用Glue API并将数据帧注册为临时视图来解决此问题： create_dynamic_fr

浏览 29提问于2019-02-09得票数 1

1回答

是否必须在aws glue作业中建立连接？

python、amazon-web-services、aws-glue、aws-glue-data-catalog

我在Glue元数据目录中有我的数据表。我需要在glue作业的python shell脚本中使用这些数据。当我创建胶水作业时，它给了我最后一个选择连接类型的选项。是否必须添加连接？如果表在glue目录中，那么连接类型是什么？

浏览 18提问于2021-05-07得票数 0

回答已采纳

3回答

有没有一种简单的方法可以克隆一个glue作业，但是改变数据库连接？

amazon-web-services、aws-glue

我有大量的客户谁提供相同格式的数据，并需要他们加载到不同数据库中相同的表。我已经在Glue中为他们设置了一个工作，但现在我必须再做同样的事情20次有没有什么方法可以复制现有的作业，而不是修改S3文件路径和JDBC连接？关于AWS Glue中的脚本，我在网上找不到太多。这是否可以通过AWS命令行界面来实现？

浏览 0提问于2019-07-09得票数 3

1回答

从EMR火星雨访问雅典娜视图，重新创建外部表或胶水目录，最有效的方式

apache-spark、amazon-emr、aws-glue、amazon-athena

我读过其他的问题，我对这个选择感到困惑。我想阅读Athena view中的EMR火花，通过搜索google/stackoverflow，我意识到这些视图以某种方式存储在S3中，所以我首先尝试通过以下方式找到视图的外部位置 Describe mydb.Myview 它提供模式，但不提供外部位置。我认为我无法从S3中读取它作为数据到目前为止，我在阅读“星火”中的雅典娜视图时考虑了什么？我已经考虑过以下选择在这个雅典娜视图中创建了一个新表，它使用外部格式的状态作为PARQUET。 CREATE TABLE Temporary_tbl_from_view WITH ( format = '

浏览 3提问于2020-09-10得票数 4

回答已采纳

2回答

使用Terraform创建具有数据源和数据目标的Glue作业作为亚马逊S3

amazon-web-services、amazon-s3、cloud、terraform、terraform-provider-aws

我是AWS和Terraform的新手。当我看到Terraform文档时，我必须使用Terraform(HCL)，创建一个Glue作业--它有这样一个脚本，它使用资源aws_glue_job启动Glue作业，但是没有办法指定这是我的数据源，这是数据转换后它需要去的地方(目标)。在我的场景中，我有一个Glue表，它是通过使用应作为数据源的Amazon文件创建的，目标也必须是S3桶，但现在数据文件将从JSON转换为S3。在使用Terraform创建Glue作业时，我找不到指定这个源和目标的方法。帮助是非常感谢的。提前谢谢。

浏览 8提问于2020-05-08得票数 0

1回答

运行在EMR上的PySpark中通过Glue数据目录访问PySpark的绝对URI异常的相对路径

amazon-dynamodb、pyspark-sql、amazon-emr、spark-hive、aws-glue-data-catalog

我正在执行一个在AWS EMR上的吡火花应用程序，该应用程序被配置为使用AWS Glue数据目录作为亚稳态。我在AWS中设置了一个指向DynamoDB表的表。现在，在我的pyspark脚本中，我试图访问Glue表。我可以做show tables，并能看到胶水表。但是当我试图查询表时，我得到的是异常， pyspark.sql.utils.AnalysisException: u'java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: arn:aws:dy

浏览 2提问于2019-04-25得票数 4

回答已采纳

1回答

在模式更改中使用AWS Glue和Apache

amazon-web-services、amazon-s3、avro、aws-glue

我是AWS Glue新手，很难完全理解AWS文档，但在以下用例中挣扎着：我们有一个包含大量Avro文件的s3桶。我们已经决定使用Avro，因为它对数据模式更改提供了广泛的支持，允许将新的字段应用于旧数据，而不存在任何问题。使用AWS Glue，我知道每当模式更改时，爬虫就会创建一个新的表。当我们的模式发生变化时，这导致了爬行器创建了许多新表，正如我们所期望的，但并不完全符合我们的要求. 最终，我们希望爬虫检测最新的模式，并将该模式应用于我们正在s3桶中爬行的所有数据，只输出一个表。我们(可能是错误的)假设通过使用Avro，这不会成为一个问题，因为爬虫可以将具有给定默认值或空值的新模式字段应

浏览 0提问于2018-02-09得票数 14

2回答

AWS胶水目录作业上的MSCK修复命令

amazon-web-services、aws-glue

我们是否可以安排AWS胶水作业执行MSCK修复命令，以便将新添加分区的元数据添加到胶水目录中？ Glue ETL脚本可以在不调用Athena的情况下执行MSCK修复表命令吗？

浏览 0提问于2018-04-10得票数 2

1回答

AWS Glue Studio到AWS Athena表

amazon-web-services、aws-glue、amazon-athena、aws-glue-workflow

我在AWS雅典娜有一个数据库，里面有一堆表。我想使用AWS Glue Studio执行这些表的连接。我已经订阅了亚马逊雅典娜的CData AWS胶水连接器。当我尝试使用此连接器创建连接并连接到AWS Athena中的一个表时，我收到以下错误： Py4JJavaError: An error occurred while calling o61.getSource. : java.lang.AssertionError: assertion failed: Glue ETL Marketplace: Either user/password or secretId should be prov

浏览 44提问于2021-11-09得票数 0

5回答

AWS Glue不会检测分区并在目录中创建1000+表

amazon-web-services、amazon-s3、aws-glue

我正在使用AWS Glue创建元数据表。 AWS Glue Crawler数据存储路径: s3://bucket-name/ S3中的存储桶结构类似于 ├── bucket-name │ ├── pt=2011-10-11-01 │ │ ├── file1 | | ├── file2 │ ├── pt=2011-10-11-02 │ │ ├── file1 │ ├─

浏览 0提问于2018-01-09得票数 9

2回答

在执行ETL作业之前，是否需要运行AWS Glue爬虫来检测新数据？

amazon-web-services、aws-glue

AWS Glue docs明确指出，Crawler从源(JDBS或s3)中抓取元数据信息，并填充数据目录(创建/更新DB和相应的表)。但是，不清楚是否需要定期运行爬虫来检测源(即s3上的新对象、db表中的新行)中的新数据，如果我们知道没有任何方案/分区更改的话。那么，在运行ETL作业之前是否需要运行爬虫才能获取新的数据？

浏览 0提问于2018-04-11得票数 10

回答已采纳

1回答

如何使用AWS启用对dynamoDB表的跨帐户访问

amazon-dynamodb、amazon-iam、aws-glue

您好，谢谢您提前提出意见下面是关于跨帐户跨区域访问DynamoDB表的教程我听了这篇文章，但变得很困惑。我有两个帐户'A‘和'B’，并希望允许运行在帐户'B‘中的Glue作业访问帐户'A’中的dynamoDB表，并在帐户'B‘中复制该表。据我所知，我不得不创建“A”帐户中对DynamoDB表的读取访问策略使用另一个AWS帐户选项(使用帐户'B‘帐户id)在帐户'A’中创建一个角色，并将策略从步骤1添加到其中为步骤2中的角色获取arn，并在帐户'B‘中使用在step2中创建的角色的arn授予访问角色。

浏览 2提问于2021-01-27得票数 0

1回答

ETL脚本是如何工作的？

aws-glue

是否可以使用AWS Glue编写ETL脚本，在本地oracle数据库中执行查询，并且生成的结果必须以表的形式在AWS Glue数据目录中创建？

浏览 10提问于2019-05-20得票数 0

1回答

同步两个AWS Glue数据目录

amazon-web-services、aws-glue、aws-glue-data-catalog

我有一个想要同步位于不同账户上的两个AWS Glue数据目录的用例。创建/删除新的数据库/表/分区时，Glue是否会发出可以发布的通知？或者以其他方式了解在其他Glue Data Catalog中发生了什么？一种方法是监听Glue帐户的Cloudwatch通知，但根据Doc的说法，Cloudwatch通知是不可靠的：

浏览 1提问于2019-07-16得票数 0

1回答

将数据从API端点拉入AWS

amazon-web-services、api、aws-glue

所以我是API的新手，我有这样的用例:有订单历史记录存储在一个位置上，而供应商已经将这些作为API端点公开(给定一个URL以及API键/参数等)，我想提取这些数据并将其带到我的Redshift表中。我希望能够每天运行一个作业，并将当天的所有新订单放入我的Redshift表中。现在，我正在探索GLUE，因为它具有作业创建/调度功能，但是GLUE只支持使用JDBC协议的少数数据源以及几个非本机数据源。我找不到任何特定于Glue从API端点拉取数据的东西。我想看看，我是否可以利用其他AWS服务来完成此活动(glue/kinesis??)在这方面的任何输入都会非常有帮助。提前感谢。

浏览 18提问于2019-12-20得票数 1

1回答

AWS胶水作业- CSV到Parquet。如何忽略标头？

csv、parquet、aws-glue

我需要把一堆(23)的CSV文件(源s3)转换成拼花格式。输入CSV在所有文件中都包含头。当我用Glue为它生成代码时。输出包含22个标题行，也在单独的行中，这意味着它忽略了第一个标头。在执行此转换时，我需要帮助忽略所有标头。由于我使用from_catalog函数作为输入，所以没有任何format_options来忽略标题行。另外，我是否可以在Glue表中设置标题在文件中的选项？当我的工作运行时，这会自动忽略标头吗？我目前做法的一部分如下所示。我对Glue很陌生。这段代码实际上是Glue自动生成的。 datasource0 = glueContext.create_dynamic_fra

浏览 6提问于2019-12-03得票数 1

回答已采纳

2回答