使用与S3对应的表命名约定，在源端对单个胶水作业中的多个表运行SQL脚本。

文章/答案/技术大牛

发布

1回答

pyspark、aws-glue

sql_list = ['(select * from table1 where rownum <= 100) alias1','(select * from table2 where rownum<= 100) alias2'] for sql_statement in sql_list: df = spark.read.format("jdbc").option("driver", jdbc_driver_namedb_password).op

浏览 16提问于2020-03-30得票数 0

回答已采纳

1回答

使用手动创建的表运行时，AwS胶水作业读取0文件。

aws-glue、aws-glue-data-catalog

我想运行胶水作业来完成从s3到Postgres的许多csv文件的ETL过程。每天都会将新文件写入s3源桶。因此，当我用向导创建胶水作业时，当被问到要使用哪个表时，我只从glue数据目录(基于最大的csv文件创建)中选择一个表。因此，在DB中，我只有来自最大文件的数据，而不是来自所有csv文件<

浏览 0提问于2020-03-26得票数 3

1回答

使用Boto3和AWS Glue运行多个SQL语句

python-3.x、amazon-web-services、amazon-s3、boto3、amazon-athena

我想使用boto3在单个AWS Glue脚本中运行多个SQL语句。第一个查询从S3存储桶(地块文件)创建一个表 import boto3 config = {'OutputLocation': 's3然后，我必须运行以下查询来更新分区并插入数据。，当我在</

浏览 56提问于2021-06-23得票数 0

2回答

用爬虫更新手工创建的aws胶水数据目录表

amazon-web-services、aws-glue、aws-glue-data-catalog

我正在使用AWS胶水和s3上的许多文件，每天都会追加新的文件。我尝试创建并运行一个爬虫来推断出那些csv文件的模式。但是，我只需要一个表在数据目录中的所有这些文件！因此，我手动创建了单独的数据目录表，当我将这个表与胶水作业一起使用时，没有一个s3 csv文件被处理。我猜这是

浏览 8提问于2020-03-27得票数 1

3回答

从亚马逊网络服务DataLake到远程数据服务

amazon-web-services、amazon-s3、etl、amazon-rds、data-lake

我对DataLakes比较陌生，我正在为一个亚马逊网络服务项目做一些研究。我已经创建了一个DataLake，并从胶水爬虫中生成了表，我可以在S3中查看数据并使用雅典娜进行查询。到目前一切尚好。需要将存储在datalake中的部分数据转换为RDS，以便应用程序读取数据。从S3 DataLake到RDS的ETL的最佳解决方案是什么？我见过的大多数帖

浏览 6提问于2019-11-08得票数 1

1回答

AWS Glue将文件从JSON转换为具有与源表相同分区的Parquet

amazon-web-services、bigdata、aws-glue

我们使用AWS胶水来转换存储在S3数据仓库中的JSON文件。姓名、年份、月份、日期、时间

浏览 1提问于2018-02-12得票数 8

3回答

AWS胶水每次都将完整的数据从源复制到目标，即使在有书签时也是如此。

aws-glue

我在aws胶水控制台中从向导中生成了一个胶水作业。在生成任务时，我没有更改默认脚本。它从postgres数据库表(源)中获取数据，并写入另一个postgres数据库(Target)。我在ide中选择了enable书签。每当任务运行时，它都会将完整的源数据库表复制到目标表，即使源中没有插入、更新或删除。我理解<e

浏览 2提问于2017-12-18得票数 3

回答已采纳

1回答

是否可以将mysql rds数据库中选择列的多个表中的数据添加到具有另一个mysql rds表的单个表中

amazon-web-services、aws-glue

是否可以使用AWS Glue将mysql rds数据库多个选择性列的表中的数据添加到具有另一个mysql rds实例的单个表中。谢谢

浏览 1提问于2020-01-06得票数 1

1回答

创建AWS胶水作业需要爬虫吗？

amazon-web-services、pyspark、boto3、aws-glue、aws-lake-formation

我的问题是:创建胶水作业需要爬虫&在湖中创建数据库吗？我的aws角色有一些问题，我没有被授权在LakeFormation中创建资源，所以我想我是否可以跳过它们，只创建一个胶水作业并测试我的脚本？例如，我只想对一个输入的.txt文件进行测试，我将它存储在S3中，我还需要爬虫吗？我是否可

浏览 3提问于2021-02-07得票数 3

回答已采纳

3回答

AWS Lambda是否比AWS Glue Job更受欢迎？

amazon-web-services、aws-lambda、aws-glue

在AWS胶水作业中，我们可以编写一些脚本并通过job执行脚本。在AWS Lambda中，我们也可以编写相同的脚本并执行上述作业中提供的相同逻辑。因此，我的问题不是AWS胶水作业和AWS Lambda之间的区别，而是我试图理解何时AWS胶水作业应该优先于AWS Lambda，

浏览 11提问于2020-08-26得票数 6

1回答

将数据从AWS S3复制到

postgresql、amazon-s3、amazon-aurora

我正在尝试将数据从AWS S3复制到。目前，我的程序如下：运行"COPY FROM STDIN ...“命令将数据从输入流加载到Aurora。我想知道是否有一个命令可以直接从S3复制到Aurora。

浏览 4提问于2017-03-31得票数 9

1回答

AWS Glue Crawler将所有数据发送到Glue Catalog和Athena，而无需Glue Job

amazon-web-services、aws-glue、aws-glue-data-catalog

我对AWS胶水有新的了解。我正在使用AWS Glue Crawler从两个S3存储桶中抓取数据。我在每个存储桶中都有一个文件。AWS Glue Crawler在AWS Glue Data Catalog中创建了两个表，我还可以在AWS Athena中查询数据。我的理解是为了在雅典娜中获取数据，我需要创建胶水<e

浏览 62提问于2021-10-08得票数 1

回答已采纳

2回答

spark.sql.files.maxPartitionBytes不限制写入分区的最大大小

apache-spark、apache-spark-sql、aws-glue

我正在尝试将拼板数据从另一个s3桶复制到我的s3桶中。我希望将每个分区的大小限制为128 MB。我认为默认情况下，spark.sql.files.maxPartitionBytes应该设置为128 MB，但是当我在复制后查看s3中的分区文件时，我会看到大约226 MB的单个分区文件。我看了这篇文章，它建议我设置这个星火配置键，以限制分区的最大大小：，但它似乎不起作

浏览 54提问于2020-06-30得票数 1

5回答

AWS胶水书签

amazon-web-services、pyspark、parquet、aws-glue

如何验证我的书签是否正常工作？我发现，当我在上一次完成后立即运行一个作业时，似乎仍然需要很长时间。为什么会这样呢？我以为它不会读取它已经处理过的文件？脚本如下所示：from awsglue.transforms import *fromargs['JOB_NAME'], args) inputGDF = glueContext.create_dynamic_frame_

浏览 0提问于2018-12-11得票数 5

2回答

如何以编程方式重命名AWS Glue Catalog中的列名

aws-glue

我已经使用crawler填充了25个表的胶水目录。现在，所有的表名都有通用的列名。有没有更好的方法通过编程重命名列，而不是手动逐个重命名？我也不想用不同的列名再次写入相同的数据。我遇到了RenameField类，但不确定它是只重命名目录还是重新写入整个数据？

浏览 4提问于2018-08-01得票数 1

1回答

对于col_a中的每个不同值，生成一个新表

amazon-web-services、amazon-s3、aws-lambda、aws-glue、amazon-athena

我在S3中有一个雅典娜数据表，它充当源表，列为id、name、event。对于该表中的每个唯一name值，我希望输出一个新表，其中包含与该name值相对应的所有行，并将其保存到S3中的不同存储桶中。这将导致存储在S3中的n

浏览 5提问于2020-02-13得票数 1

回答已采纳

1回答

自动从S3加载数据到红移

amazon-web-services、amazon-s3、aws-lambda、amazon-redshift

S3的数据是从kafka流消费者应用程序中转储出来的。 S3中的文件将json对象与下一行分隔开。此数据需要加载到红移中的abc事件表中。通过爬行器在Data中创建一个表，然后在glue中运行ETLL

浏览 9提问于2020-09-10得票数 1

回答已采纳

1回答

雅典娜- Glue中管道列名、列号、数据类型变化检测器的需要

mysql、aws-glue、amazon-athena

我在AWS中设置了下面的管道(在这里尽量不要泄露太多的公司信息)。这可能过于简单化了，但现在开始了。公司要求我们确保在mySQL中维护列名、数据类

浏览 2提问于2022-07-05得票数 1

回答已采纳

3回答

在Athena CTAS上创建100多个分区的替代方案

amazon-web-services、amazon-s3、amazon-athena

我目前正在根据存储在亚马逊S3中的信息创建一些新表。第一次使用AWS，今天我了解到Amazon不能通过CTAS查询创建超过100个分区。我正在使用sql进行转换，它工作得很好，但需要一种方法一次存储100多个分区，以使过程更加可靠。我将分区设置为日期，因此在4个月内，如果需要重新创建表以通过sql加载大量数据(其中有转换)，我的流程将失败。知道我怎么能做到这一点

浏览 10提问于2019-10-25得票数 1

回答已采纳

1回答

Kafka与AWS GLUE集成

apache-kafka、aws-glue-spark

找不到此特定集成的任何特定组。1)当我在AWS胶水控制台中创建到Kafka的连接时，AWS胶水控制台上的‘测试连接’选项被禁用(灰显)。所以不确定我创建的连接是否正常。2)<em

浏览 0提问于2020-06-04得票数 0

点击加载更多