如何在亚马逊网络服务中使用Glue作业覆盖s3数据

在亚马逊网络服务（AWS）中使用Glue作业覆盖S3数据的步骤如下：

创建Glue数据目录：首先，在AWS管理控制台中，打开Glue服务。然后，创建一个数据目录，用于存储Glue作业处理后的数据。
创建Glue数据源：在Glue服务中，创建一个数据源，将S3作为数据源。指定S3存储桶和文件路径，以便Glue作业可以读取和处理这些数据。
创建Glue作业：在Glue服务中，创建一个作业。指定作业的名称、角色和其他相关配置。在作业配置中，选择数据源为步骤2中创建的S3数据源。
配置Glue作业脚本：在Glue作业中，编写或上传一个ETL脚本，用于对S3数据进行处理和转换。可以使用Python或Scala编写脚本，根据具体需求进行数据清洗、转换、聚合等操作。
运行Glue作业：保存并运行Glue作业。Glue会自动分配和管理资源，执行作业脚本对S3数据进行处理。可以监控作业的运行状态和日志输出。
查看处理结果：一旦Glue作业完成，可以查看处理后的数据结果。可以将结果保存到S3或其他目标存储位置，以供后续分析和使用。

推荐的腾讯云相关产品：腾讯云数据工厂（DataWorks）是一款数据集成与数据开发的云原生产品，可以帮助用户实现数据的全生命周期管理。它提供了类似于AWS Glue的数据集成、数据开发、数据运维等功能，支持多种数据源和数据处理引擎，适用于各种数据处理场景。

腾讯云数据工厂产品介绍链接地址：https://cloud.tencent.com/product/dt

请注意，根据要求，本回答不包含亚马逊AWS、Azure、阿里云、华为云、天翼云、GoDaddy、Namecheap、Google等流行的云计算品牌商的信息。

AWS Glue错误:指定的子网没有足够的空闲地址来满足请求

、、、

我有一个AWS作业，它从S3获取数据、转换数据并加载到多个Redshift表。胶工详细信息：类型:火花此作业运行:由您编写的新脚本。工人类型:标准最大容量:5 连接详细信息： Glue作业使用“数据目录>连接”连接到Redshift。连接类型: JDBC 有时Glue作业失败，错误如下：指定的子网没有足够的空闲地址来满足请求(服务:AmazonEc2，状态代码: 400，错误代码: InsuffecientFreeAdressesInSubnet) 是否有一种方法可以根据上述条件计算Glue作业所需的IP地址数量，或者任何其他方法，以便我可以按顺序来调度作业？

浏览 2提问于2020-05-06得票数 2

回答已采纳

1回答

数据湖亚马逊无服务器亚马逊S3

、、、

我试图使用亚马逊简单存储服务(Amazon S3)作为主要数据存储来构建一个无服务器数据湖。被摄取的数据落入亚马逊S3存储桶中，我们称之为原始区。要使该数据可用，我必须在AWS Glue数据目录中对其架构进行编目。我使用Amazon S3触发器调用的AWS Lambda函数来启动对数据进行编目的AWS Glue爬虫。爬虫程序创建完表定义后，使用Amazon CloudWatch Events规则调用第二个Lambda函数。此步骤启动AWS Glue ETL作业，以处理数据并将其输出到另一个亚马逊S3存储桶中，我们称之为已处理区域。AWS Glue ETL作业将数据转换为Apache Par

浏览 1提问于2019-10-04得票数 0

2回答

传统数据湖与AWS湖形成

、、

我一直在为客户建立数据湖，在那里我们将数据从onprem或任何其他来源加载到S3 (一个数据湖)中。我们将在这些原始数据上创建一个AWS Glue目录来创建模式。下一步是使用EMR或AWS Glue进行数据清理，将转换后的数据加载到RDS / REDSHIFT / S3中作为最终目标。根据使用的用例/服务，可以使用数据管道、Glue Jobs或AWS Lambda事件触发器来调度作业。分析人员、其他用户将使用IAM服务提供所需的数据/ S3桶访问，用于Quicksight可视化或使用雅典娜、data等进行数据查询，或在Sagemaker中为ML应用程序使用数据。我的问题是，AWS湖的形

浏览 0提问于2019-08-20得票数 3

1回答

S3数据池中数据的增量更新

、

我是AWS新手，来自ETL背景的数据仓库。我们目前正在使用AWS服务数据湖向云移动，并尝试使用sqoop作业将数据从外部源关系数据库管理系统(Bucket)加载到亚马逊s3登陆层(Bucket)，然后使用Informatica将数据加载到亚马逊S3中的不同层(桶)。从外部源系统获取数据的频率为每天。我不知道如何在S3中实现Delta /SCD类型。在亚马逊的S3桶中创建对象之后，是否有可能更改它，或者我们是否必须继续在s3桶中作为对象创建日常负载的副本？我知道亚马逊为我们提供了数据库选项，但我们被指示将数据加载到Amazon中。

浏览 1提问于2018-10-21得票数 1

回答已采纳

1回答

AWS glue中的日志记录

、

我已经创建了一个成功执行的AWS glue作业。但是，我无法将任何自定义日志记录放入作业中。如何在亚马逊网络服务S3存储桶中创建日志文件，以便跟踪日常作业的执行情况？目前，当我的作业执行时，它会创建默认日志(即spark日志)，我可以在AWS cloud watch中看到它。在AWS glue中记录事件的最佳实践是什么？

浏览 38提问于2018-12-04得票数 4

2回答

为S3和未知模式中的数据创建Glue数据目录中的表

、、、、

我当前的用例是，在基于ETL的服务(NOTE：ETL服务不使用Glue ETL，它是一个独立的服务)中，我从AWS集群获得一些数据到S3中。然后将S3中的数据输入T和L作业。我想将元数据填充到Glue目录中。最基本的解决方案是使用Glue Crawler，但是爬虫运行大约1小时20分钟(很多s3分区)。我遇到的另一个解决方案是使用Glue API，但是，我也面临着数据类型定义的问题。是否有任何方法，我可以创建/更新Glue目录表，在那里我有数据在S3和数据类型只知道在提取过程中。而且，当运行T和L作业时，数据类型应该在目录中随时可用。

浏览 4提问于2020-08-14得票数 1

回答已采纳

1回答

AWS SageMaker上的ML管道:如何创建长时间运行的查询/预处理任务

、、、、

我是一名软件工程师，正在向机器学习工程过渡，但需要一些帮助。我目前正在使用AWS Lambda和Step函数来运行我的ML管道的查询和预处理作业，但由于Lambda的15m运行时限制而受到限制。我们是一家严格意义上的AWS商店，所以我暂时还在使用SageMaker和其他AWS工具。稍后，我们将考虑尝试类似Kubeflow之类的东西，如果它看起来足够有利的话。我的当前进程 I让我的数据科学家为模型的查询和预处理步骤编写python脚本(在git中)，并将它们(通过Terraform)部署为lambda函数，然后使用Step函数将ML管道步骤排序为DAG (查询->预处理-> d

浏览 2提问于2020-11-03得票数 1

1回答

AWS glue中包含哪些数据类别？

、、

我正在通过aws glue爬行数据到数据目录。但是我对数据库的定义有点困惑。根据我在亚马逊网络服务文档A database in the AWS Glue Data Catalog is a container that holds tables. You use databases to organize your tables into separate categories.中找到的信息。我想知道数据库到底包含了什么。它是否加载来自其他数据源的所有数据并在这些数据源上创建目录？或者它只包含目录？如何知道glue数据库中表的大小？以及它使用的数据库类型，如nosql、rds 例如，我创建了

浏览 17提问于2019-07-25得票数 1

回答已采纳

2回答

蓝鲸的API接口在哪里？

、

蓝鲸平台的API接口在哪里？标题：作业平台功能 - 蓝鲸平台 - 产品文档 - 帮助与文档 - 腾讯云地址：https://cloud.tencent.com/document/product/274/3432

浏览 1892提问于2018-01-24

1回答

AWS Glue Scala作业(来自S3桶)抛出ClassNottFound

、

我试图遵循AWS Glue文档来开发scala程序，并创建一个新的Glue作业。到目前为止，我一直走在下面。在指导下构建了一个样例Scala程序。将scala主类捆绑到jar和依赖项程序集文件中，并将其上传到S3下的/bin文件夹中。在AWS管理控制台上启动AWS Glue服务在“作业”下单击“添加作业”并设置以下内容 - Name: - IAM Role : Role that has access to S3, Glue, etc - Type: Spark - Glue Version: Spark 3.1, Scala 2 (G

浏览 18提问于2021-12-14得票数 1

5回答

如何使用AWS胶将多个CSV文件转换为Parquet

、、、

我使用AWS S3、Glue和Athena，设置如下： S3 -> Glue -->雅典娜我的原始数据作为CSV文件存储在S3上。我使用Glue for ETL，使用Athena查询数据。由于我使用雅典娜，我想把CSV文件转换为Parquet。我现在用AWS胶来做这个。这是我正在使用的当前过程：运行Crawler读取CSV文件并填充数据目录。运行ETL作业，从数据目录创建Parquet文件。运行一个Crawler来使用Parquet文件填充数据目录。 Glue作业只允许我一次转换一个表。如果我有许多CSV文件，这个过程就会很快变得难以管理。是否有更好的

浏览 1提问于2018-04-23得票数 16

回答已采纳

2回答

为什么我的AWS Glue爬虫不创建任何表？

、

我正在尝试使用AWS来ETL，这是RDS到S3中的一个S3数据库，这样我就可以使用SageMaker或雅典娜这样的服务中的数据。此时，我不关心转换，这是一个原型，我只是想将DB转储到S3，以开始测试各种工具链。我已经建立了一个Glue数据库并成功地测试了到RDS的连接我使用AWS提供Glue IAM服务角色我的S3桶有正确的前缀aws-glue-* 我使用Glue数据库、AWSGlue服务角色和上面提供的选项( )创建了一个爬虫。数据存储区中的架构更新:更新数据目录中的表定义在数据存储区中删除对象:从数据目录中删除表和分区。当我运行爬虫时

浏览 0提问于2019-01-10得票数 2

1回答

采用S3端点和存储桶策略的AWS胶水

我有一个目前的S3和胶水基础设施如下。部署在VPC S3存储桶中的S3端点具有仅允许来自端点的流量的存储桶策略。粘合有权访问所述存储桶的IAM角色。当我运行一个AWS Glue Crawler作业时，我得到了一个错误“用户没有访问IAM存储桶的权限”，我试图提供S3用户ID访问S3存储桶。我在S3存储桶策略中添加了IAM角色和IAM ID。但错误仍在继续。当我删除存储桶策略时，即使IAM用户ID对存储桶没有访问权限，爬虫作业也是成功的。根据亚马逊网络服务文档，亚马逊网络服务胶水使用S3端点。如果是这样，为什么我会得到这个错误？

浏览 28提问于2020-03-25得票数 0

2回答

使用Terraform创建具有数据源和数据目标的Glue作业作为亚马逊S3

、、、、

我是AWS和Terraform的新手。当我看到Terraform文档时，我必须使用Terraform(HCL)，创建一个Glue作业--它有这样一个脚本，它使用资源aws_glue_job启动Glue作业，但是没有办法指定这是我的数据源，这是数据转换后它需要去的地方(目标)。在我的场景中，我有一个Glue表，它是通过使用应作为数据源的Amazon文件创建的，目标也必须是S3桶，但现在数据文件将从JSON转换为S3。在使用Terraform创建Glue作业时，我找不到指定这个源和目标的方法。帮助是非常感谢的。提前谢谢。

浏览 8提问于2020-05-08得票数 0

1回答

亚马逊网络服务，如何启动

、、

开始使用AWS，有大量的EXCEL数据要存储在AWS中，并且需要访问AWS的那些数据。请帮助我从哪里开始这样做。不清楚用例。谁能用简单的话来解释亚马逊简单存储服务(，亚马逊S3)、亚马逊弹性计算云(，亚马逊EC2)和亚马逊SimpleDB之间的区别。请帮助我从零开始。谢谢,

浏览 2提问于2017-02-09得票数 0

回答已采纳

1回答

将文件的FTP自动化到亚马逊的S3桶

、、、

我想要自动化数据上传/摄取到亚马逊的S3桶。我不想使用像Filezilla这样的FTP到S3的软件。这些文件将每天提供给FTP服务器。我想从FTP服务器中选择这些文件，并每天存储在亚马逊的S3中。我可以设置cron作业或脚本在AWS中以成本效益的方式运行吗？AWS实例可以帮助我实现这一目标。这些文件的大小约为1GB。

浏览 2提问于2020-08-31得票数 1

回答已采纳

1回答

胶水作业因无法从S3下载脚本而失败

、、

我正在创建一个AWS过程，以便将CSV数据从S3中提取到Aurora中。我已经成功地为源文件和目标DB表创建并运行了爬虫。我还创建了ETL作业，执行了映射并保存了自动生成的脚本。所有(S3、DB、Glue)都位于同一区域。运行ETL作业时，它使用以下消息出错 fatal error: Connect timeout on endpoint URL: <REDACTED> Error downloading script: fatal error: Connect timeout on endpoint URL: <REDACTED> 在云监视日志中，我有两条相关消息

浏览 2提问于2020-06-18得票数 0

回答已采纳

1回答

Kafka与AWS GLUE集成

、

找不到此特定集成的任何特定组。我正在为一家零售组织工作，并试图将Kafka streams与Glue直接集成。我的意思是将Kafka主题作为输入源放到AWS胶水中。我使用的是Apache Kafka 2.12。如果有人在这个集成模式上工作过，我会来这个小组寻求一些帮助。我在集成测试过程中遇到的问题如下 1)当我在AWS胶水控制台中创建到Kafka的连接时，AWS胶水控制台上的‘测试连接’选项被禁用(灰显)。所以不确定我创建的连接是否正常。 2)在我的设置中-输入源是Kafka / Topic，消息为JSON格式。目标I被保留为S3/csv格式，并具有源和目标之间字段的默认映射。我选择了Sp

浏览 0提问于2020-06-04得票数 0

1回答

Symfony2 + AmazonS3 + KnpGaufretteBundle如何从数据库设置密钥和加密

、、、、

我想从数据库而不是从parameters.yml设置亚马逊S3设置在symfony2调用服务之前，谁能给我指出如何使用数据库参数的正确方向？ #app/config/config.yml services: acme.aws_s3.client: class: Aws\S3\S3Client factory_class: Aws\S3\S3Client factory_method: 'factory' arguments: - key: %ama

浏览 4提问于2015-03-29得票数 2

2回答

AWS Glue ETL作业如何检索数据？

、、

我刚开始使用AWS Glue，我不明白ETL工作是如何收集数据的。我使用一个爬虫从一个S3桶中的一些文件生成我的表模式，并检查了ETL作业中的自动生成脚本，该脚本在这里(略有修改)： import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job ## @param

浏览 0提问于2018-08-23得票数 1

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在亚马逊网络服务中使用Glue作业覆盖s3数据

相关·内容

AWS Glue错误:指定的子网没有足够的空闲地址来满足请求

数据湖亚马逊无服务器亚马逊S3

传统数据湖与AWS湖形成

S3数据池中数据的增量更新

AWS glue中的日志记录

为S3和未知模式中的数据创建Glue数据目录中的表

AWS SageMaker上的ML管道:如何创建长时间运行的查询/预处理任务

AWS glue中包含哪些数据类别？

蓝鲸的API接口在哪里？

AWS Glue Scala作业(来自S3桶)抛出ClassNottFound

如何使用AWS胶将多个CSV文件转换为Parquet

为什么我的AWS Glue爬虫不创建任何表？

采用S3端点和存储桶策略的AWS胶水

使用Terraform创建具有数据源和数据目标的Glue作业作为亚马逊S3

亚马逊网络服务，如何启动

将文件的FTP自动化到亚马逊的S3桶

胶水作业因无法从S3下载脚本而失败

Kafka与AWS GLUE集成

Symfony2 + AmazonS3 + KnpGaufretteBundle如何从数据库设置密钥和加密

AWS Glue ETL作业如何检索数据？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐