__HIVE_DEFAULT_PARTITION__作为glue ETL作业中的分区值

文章/答案/技术大牛

发布

1回答

apache-spark、amazon-s3、pyspark、boto3、aws-glue

我有CSV数据，这些数据是通过glue爬虫爬行的，最后保存在一个表中。我正在尝试运行一个ETL作业，将磁盘上的数据重新分区到date列的一些组件中。然后将CSV转换为镶木。例如，我的数据中有一个名为"date“的列，并希望在s3上将数据划分为年、月、日分区。我能够转换为parquet并让它正确地对序列号值进行分区(另一列)，但它将与日

浏览 72提问于2019-03-20得票数 4

4回答

AWS Glue ETL和PySpark以及分区数据:如何从分区创建数据

amazon-web-services、amazon-s3、pyspark、aws-glue

我在day分区中的文件上运行Glue ETL作业，并创建Glue dynamic_frame_from_options。然后，我使用ApplyMapping.apply应用一些映射，它的工作原理就像一种魅力。但是，我想根据每个文件的分区创建一个包含hour值的新列。我可以使用Spark创建一个带有常量的新列，但是如何使这个列使用分区作为

浏览 2提问于2019-04-30得票数 3

回答已采纳

1回答

创建AWS胶水作业需要爬虫吗？

amazon-web-services、pyspark、boto3、aws-glue、aws-lake-formation

我正在通过下面的页面：来学习“用Pyspark来学习Glue”。我的问题是:创建胶水作业需要爬虫&在湖中创建数据库吗？我的aws角色有一些问题，我没有被授权在LakeFormation中创建资源，所以我想我是否可以跳过它们，只创建一个胶水作业并测试我的脚本？例如，我只想对一个输入的.txt文件进行测试，我将它存储在S3中，我还需要爬虫吗？我是否可以使用boto3创建一个胶水作业来测试脚本并

浏览 3提问于2021-02-07得票数 3

回答已采纳

1回答

使用Glue的增量ETL

etl、aws-glue

场景:源团队在s3中每1小时创建一次文件(hrly分区)。我想每4小时处理一次。Glue etl将读取s3文件(已分区的hrly)并处理存储在不同的s3文件夹中。注:胶水ETL是从气流中调用的。

浏览 9提问于2022-04-18得票数 0

2回答

使用Amazon Kinesis Firehose按同一密钥聚合数据

amazon-kinesis、amazon-kinesis-firehose

我有一个用例，我希望根据特定的键聚合数据，以便在特定的时间段后对其进行批处理。键值事先是未知的，但我希望所有带有键A的记录一起从流中返回，所有带有键B的记录一起从流中返回，依此类推。是否可以使用AWS Kinesis firehose自定义分区执行此操作？

浏览 0提问于2021-01-20得票数 0

2回答

为S3和未知模式中的数据创建Glue数据目录中的表

amazon-web-services、amazon-s3、amazon-redshift、aws-glue、aws-glue-data-catalog

我当前的用例是，在基于ETL的服务(NOTE：ETL服务不使用Glue ETL，它是一个独立的服务)中，我从AWS集群获得一些数据到S3中。然后将S3中的数据输入T和L作业。我想将元数据填充到Glue目录中。最基本的解决方案是使用Glue Crawler，但是爬虫运行大约1小时20分钟(很多s3分区</

浏览 4提问于2020-08-14得票数 1

回答已采纳

2回答

如何在从AWS Glue加载雪花表之前将其截断

snowflake-cloud-data-platform

我们有一些AWS Glue作业，它们从亚马逊S3位置读取数据，并将数据写入雪花表。我们希望在每次加载之前截断表。有人能帮我做这件事吗。谢谢，拉姆。

浏览 15提问于2021-01-28得票数 1

1回答

为什么新的列被添加到拼花表中，而无法从胶水的pyspark作业中获得？

pyspark、parquet、aws-glue

我们一直在探索如何使用Glue将一些JSON数据转换为parquet。我们尝试过的一种情况是在拼花表中添加一列。所以分区1有A列，分区2有A，B列，然后我们想编写进一步的Glue ETL作业来聚合parquet表，但是新列不可用。使用glue_context.create_dynamic_frame.from_catalog加载动态框架，我们的新列从未出现在模式中。我们为我们<e

浏览 4提问于2019-04-09得票数 8

2回答

aws胶水python shell作业与火花作业的最佳用例是什么？

amazon-web-services、apache-spark、aws-glue

一直使用aws胶水python shell作业来构建简单的数据etl作业，对于spark作业，只使用过一两次用于在JDBC数据上转换为orc格式或执行星火sql。因此，想知道每个用例的最佳/典型用例是什么？一些文档说python作业适用于简单的工作，而火花则适用于更复杂的作业，对吗？你能分享更多这方面的经验吗？非常感谢

浏览 8提问于2020-02-07得票数 6

回答已采纳

3回答

从EMR迁移到AWS Glue后，在Spark SQL中找不到表

apache-spark、amazon-emr、aws-glue

我在EMR上有Spark作业，并且EMR被配置为对Hive和Spark元数据使用Glue目录。我创建了Hive外部表，它们出现在Glue目录中，我的Spark作业可以在Spark SQL中引用它们，比如spark.sql("select * from hive_table ...")现在，当我尝试在Glue作业中运行相同的代码时，它失败了，并出现"table not f

浏览 29提问于2019-02-09得票数 1

2回答

AWS胶着ETL的最佳数据大小是什么

amazon-web-services、aws-glue

我计划在ETL过程中使用AWS Glue，并将自定义python代码作为AWS Glue作业编写并运行。我在AWS文档中发现，在默认情况下，AWS为一个作业分配10个job.Is的最大DPU限制(我看不到限制部分中的任何内容，即每个作业限制的DPU最大值)。或者，是否存在MB / GB中的最佳数据大小，以避免内存不足的

浏览 0提问于2018-06-18得票数 1

回答已采纳

2回答

AWS胶水目录作业上的MSCK修复命令

amazon-web-services、aws-glue

我们是否可以安排AWS胶水作业执行MSCK修复命令，以便将新添加分区的元数据添加到胶水目录中？ Glue ETL脚本可以在不调用Athena的情况下执行MSCK修复表命令吗？

浏览 0提问于2018-04-10得票数 2

1回答

AWS Glue* - Pick动态文件*

python、amazon-web-services、pyspark、aws-glue

有人知道如何从S3存储桶中获取动态文件吗？我在S3存储桶上设置了一个爬虫，然而，我的问题是，每天都会有后缀为YYYY-MM-DD-HH-MM-SS的新文件到来。当我通过目录读取表时，它会读取目录中存在的所有文件吗？是否可以动态挑选给定日期的最新三个文件，并将其用作源文件？谢谢!

浏览 1提问于2018-09-29得票数 1

1回答

AWS Glue删除源上已删除的目标数据

amazon-web-services、aws-glue

我计划使用AWS Glue将数据从源数据库发送/转换到目标数据库。 Glue ETL作业运行并删除从源中删除的</em

浏览 3提问于2022-06-08得票数 0

1回答

使用boto3获取数据库中的表列表

python-3.x、boto3、aws-glue、aws-glue-data-catalog

我正在尝试从我的aws数据目录中的数据库中获取表的列表。我在试着用boto3。我在aws上的sagemaker笔记本上运行了下面的代码。它永远运行(比如超过30分钟)并且不返回任何结果。test_db中只有4个表。我的目标是运行类似的代码作为aws glue etl作业的一部分，我将在编辑后的aws etl作业

浏览 0提问于2019-08-08得票数 3

1回答

如何使用AWS管理控制台将配置文件引用为额外文件？

python、amazon-web-services、amazon-s3、config、aws-glue

我正在尝试使用Glue ETL作为Python脚本的作业调度程序，该脚本还引用了JSON配置文件。我所做的是将我的配置文件上传到与Glue ETL的python相同的S3桶中，我在Refer

浏览 1提问于2021-08-05得票数 1

回答已采纳

1回答

在AWS Glue* ETL作业中从S3加载分区的json文件*

amazon-web-services、amazon-s3、aws-glue

我尝试在S3存储中加载像这样分区的json文件： |-json-data |-y=something{}, format='

浏览 32提问于2020-06-10得票数 1

回答已采纳

1回答

手动设置AWS胶ETL书签

amazon-web-services、aws-glue、aws-glue-data-catalog、aws-glue-spark

我的项目正在向一个新的AWS帐户过渡，我们正试图找到一种方法来持久化我们的AWS Glue ETL书签。我们有大量已处理的数据，我们正在复制到新的帐户，并希望避免再处理。据我理解，Glue书签只是后端的时间戳，理想情况下，我们可以获得旧的书签，然后手动为新AWS帐户中匹配的作业设置书签。就解决办法而言，我的最佳选择似乎是：为Glue

浏览 3提问于2021-05-25得票数 3

回答已采纳

1回答

是否可以将每个aws动态记录写入不同的s3路径

pyspark、aws-glue、aws-glue-spark

我是新的AWS glue。我需要将动态框架中的每条记录写入s3中的自定义文件夹路径。year>/<month>/<day>/<somegroupid>/<random_file_name>.json 在这里，'year', 'month', 'day', 'somegroupid'可以作为每条记录<

浏览 1提问于2021-01-21得票数 1

1回答

如何将一个DynamoDB表复制到另一个表中，同时在过程中更改主键？

amazon-web-services、amazon-dynamodb、amazon-data-pipeline

我在这里找到了一些关于将一个dynamoDB表复制到另一个表的参考资料，但是在执行此操作时，我很难找到任何涉及更改主键的内容。基本上，我有一个类似于这样的模式(字段/数据截然不同，但想法是相同的)： PK Author Text LastInitial-

浏览 29提问于2019-06-15得票数 1

点击加载更多