亚马逊网络服务胶水ETL作业中的Boto3胶水_亚马逊网络服务胶水作业所需的GlueContext？_对于胶水工作流中的胶水作业-给定胶水运行id，如何访问胶水工作流runid？ - 腾讯云开发者社区

、、、、

我们有ETL作业，即java jar(执行etl操作)是通过shell脚本运行的。根据正在运行的作业，使用一些参数传递shell脚本。这些shell脚本可以通过crontab运行，也可以根据需要手动运行。在shell脚本运行之前，有时还需要在posgresql RDS DB上运行一些sql命令/脚本。我们在亚马逊网络服务上拥有一切，即Ec2 talend服务器，Postgresql RDS，Redshift，ansible等。我们如何自动化这个过程？如何部署和处理传递自定义参数等。欢迎使用指针。

浏览 5提问于2018-06-28得票数 2

2回答

如何在AWS Glue Crawler中监视和控制DPU使用

、

在中，据说亚马逊网络服务默认为每个ETL任务分配10个DPU，每个开发端点默认分配5个DPU，即使两者都可以配置最少2个DPU。它还提到，爬行也是以秒为增量定价的，最小运行时间为10分钟，但没有指定分配了多少DPU。可以在Glue控制台中配置作业和开发端点以消耗更少的DPU，但我还没有看到爬虫程序有任何这样的配置。每个爬虫有固定数量的DPU吗？我们能控制这个数量吗？

浏览 0提问于2018-03-08得票数 9

3回答

从亚马逊网络服务DataLake到远程数据服务

、、、、

我对DataLakes比较陌生，我正在为一个亚马逊网络服务项目做一些研究。我已经创建了一个DataLake，并从胶水爬虫中生成了表，我可以在S3中查看数据并使用雅典娜进行查询。到目前一切尚好。需要将存储在datalake中的部分数据转换为RDS，以便应用程序读取数据。从S3 DataLake到RDS的ETL的最佳解决方案是什么？我见过的大多数帖子都谈到了从RDS到S3的ETL，而不是反过来。

浏览 6提问于2019-11-08得票数 1

1回答

亚马逊网络服务胶水ETL作业中的Boto3胶水

、、、

我正在运行AWS Glue ETL job ( PySpark )，在那里我已经创建了Glue的boto3客户端来启动爬虫程序并执行一些其他的PySpark处理。问题是胶水作业在start_crawler被调用后继续运行。它既不会给出任何错误，也不会结束或启动爬行器。我的代码片段如下： import sys import boto3 import time glue_client = boto3.client('glue', region_name = 'us-east-1') crawler_name = 'test_crawler'

浏览 23提问于2021-08-09得票数 0

2回答

亚马逊网络服务: UnknownServiceError:未知服务：'apigatewaymanagementapi‘

、、、、

我在亚马逊网络服务中遇到了boto3模块的奇怪问题。我正在编写带有lambda函数的无服务器框架。我使用的是亚马逊网络服务boto3模块&用python运行下面的代码。代码在本地运行时执行成功，但在亚马逊网络服务中执行时使用UnknownServiceError失败。 client_api = boto3.client(service_name='apigatewaymanagementapi') 经过大量的研究，我发现本地的boto3版本是1.9.119，而亚马逊网络服务的boto3版本是1.9.42。我不太确定这是否是问题的根本原因。我尝试过在venv targ

浏览 34提问于2019-03-22得票数 0

2回答

从Glue Catalog和Glue Py Spark脚本中的动态路径同步CSV文件

、、、

我每天都将CSV文件存储在亚马逊网络服务s3中。下面是我的S3文件路径结构： s3://data-dl/abc/d=2019-09-19/2019-09-19-data.csv 在此结构中，将每天生成s3文件路径的日期部分。现在我想使用AWS glue for ETL将数据从S3传输到Redshift。要使用它，我如何在数据目录中添加S3路径？我只想同步最近使用的文件夹CSV文件。另外，对于Job part，我如何在Glue Pyspark脚本中声明此动态路径？

浏览 1提问于2019-09-19得票数 0

8回答

我们是否可以使用AWS Glue只将一个文件从一个S3文件夹复制到另一个S3文件夹？

、

我需要将压缩文件从一个亚马逊网络服务S3文件夹复制到另一个，并希望将其设置为计划的亚马逊网络服务胶水作业。对于这么简单的任务，我找不到一个例子。如果你知道答案，请帮忙。答案可能在AWS Lambda或其他AWS工具中。非常感谢！

浏览 108提问于2017-12-06得票数 4

回答已采纳

1回答

采用S3端点和存储桶策略的AWS胶水

我有一个目前的S3和胶水基础设施如下。部署在VPC S3存储桶中的S3端点具有仅允许来自端点的流量的存储桶策略。粘合有权访问所述存储桶的IAM角色。当我运行一个AWS Glue Crawler作业时，我得到了一个错误“用户没有访问IAM存储桶的权限”，我试图提供S3用户ID访问S3存储桶。我在S3存储桶策略中添加了IAM角色和IAM ID。但错误仍在继续。当我删除存储桶策略时，即使IAM用户ID对存储桶没有访问权限，爬虫作业也是成功的。根据亚马逊网络服务文档，亚马逊网络服务胶水使用S3端点。如果是这样，为什么我会得到这个错误？

浏览 28提问于2020-03-25得票数 0

2回答

在AWS中监视python shell胶合作业

、、

在亚马逊网络服务的文档中，他们指定了如何激活对Spark作业()的监控，但不是python外壳作业。使用原样的代码会给出这个错误：ModuleNotFoundError: No module named 'pyspark' 更糟糕的是，在注释掉from pyspark.context import SparkContext之后，我得到了ModuleNotFoundError: No module named 'awsglue.context'。python shell作业似乎不能访问glue上下文？

浏览 0提问于2020-05-22得票数 1

1回答

检查是否在Glue作业环境或木星笔记本中运行

、、、、

当脚本在Glue作业内部运行时，我需要在Glue-ETL作业中做一些设置，而不是我的木星笔记本。让我们假设我的设置是这样的： from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext SC = SparkContext.getOrCreate() GC = GlueContext(SC) # I only want to run this when inside a Glue Job args =

浏览 2提问于2021-06-14得票数 3

1回答

使用boto3列出亚马逊网络服务上的所有私有和公共服务

、、

我已经使用boto3和亚马逊网络服务打交道一段时间了，并与ec2，s3，RDS等多个服务进行交互。那么，有没有办法使用boto3代码列出亚马逊网络服务账户上所有可用的私有和公共服务？

浏览 9提问于2018-07-31得票数 0

回答已采纳

1回答

如何通过python脚本使用"AWS backup“服务创建按需ec2备份？

我想通过python脚本使用亚马逊网络服务备份服务创建一个随需应变的ec2备份。我遵循了AWS on demand backup creation documentation，并尝试使用boto3 backup client在python中实现它。这是我提到的boto3亚马逊网络服务备份API documentation，但无法完成它。任何帮助都将不胜感激。谢谢!

浏览 40提问于2021-10-25得票数 0

1回答

当我使用job glue时，亚马逊S3中的数据是否会出现在公共互联网上？

、、

我正在使用亚马逊网络服务创建一条数据传输线，我的数据存储在亚马逊S3存储桶中，我计划使用胶水爬虫在前缀下抓取数据以提取元数据，并在胶水作业之后执行ETL并将数据保存到另一个存储桶中。我的问题是:这些服务在哪个网络中工作并相互通信？有没有可能通过公共互联网将数据从亚马逊S3移动到胶水？是否有任何指向aws文档的链接，用于解释AWS服务在它们之间传输数据时使用哪些网络？

浏览 18提问于2021-06-29得票数 1

1回答

如何通过S3事件或AWS Lambda触发Glue ETL Pyspark作业？

、、、

我计划使用Pyspark在AWS Glue ETL中编写某些作业，我希望在新文件被放置到AWS S3位置时触发该作业，就像我们使用S3事件触发AWS Lambda函数一样。但是，我只看到非常有限的选项，以触发Glue ETL脚本。在这方面的任何帮助都将受到高度的感谢。

浏览 70提问于2019-08-26得票数 5

回答已采纳

1回答

我们是否可以使用AWS glue来分析RDS数据库，并使用ETL将分析后的数据存储到rds mysql表中

、、

我是AWS的新手。我想使用AWS glue进行ETL过程。我们是否可以使用AWS glue来分析RDS数据库，并使用ETL作业将分析的数据存储到rds mysql表中谢谢

浏览 26提问于2019-12-24得票数 1

1回答

如何在aws glue中映射复杂的xml文件数据？

、

有没有办法，我们可以映射下面提到的数据在亚马逊网络服务glue.The任务是迁移xml文件到数据库使用亚马逊网络服务胶水，但我无法正确转换这种类型的数据.So，如果有人可以帮助将提前appreciated.Thanks。结构<数组:数组<结构<名字:字符串，姓氏:字符串>，结构:结构<名字:字符串，LastName:string> >

浏览 10提问于2020-03-14得票数 0

1回答

AWS Glue S3 VPC端点策略问题

、、、

当我为AWS胶水服务创建ETL端点以从redshift群集卸载数据时，S3作业仅在VPC端点策略设置为“完全访问”时才起作用。 i.e { "Statement": [ { "Action": "*", "Effect": "Allow", "Resource": "*", "Principal": "*" }

浏览 14提问于2017-08-30得票数 1

1回答

无法创建AWS Glue作业而不使用Python Boto3提供脚本位置

、、

我试图使用Python来创建Boto3胶水作业，而不是使用AWS控制台。我无法找到为数据传输生成胶水脚本的选项。AWS胶水UI提供了在作业类型为Spark时生成脚本的选项。如何使用python boto3或使用terraform模板实现相同的目标？

浏览 8提问于2022-01-17得票数 0

1回答

AWS Glue:如何减少ETL作业的DPU数量

、

AWS关于定价的Glue文档如下： Glue ETL作业至少需要2个DPU。默认情况下，AWS Glue为每个ETL作业分配10个DPU。每个DPU小时收费0.44美元，每小时递增1分钟，再加到最近的一分钟，每个ETL工作的最低持续时间为10分钟。我想减少分配给ETL工作的DPU数量。我在Glue控制台中搜索了这个选项。但我没找到。你能告诉我怎么做吗？谢谢

浏览 0提问于2017-10-11得票数 2

回答已采纳

1回答

AWS Glue ETL作业的Scala和Java版本是什么？

、、

到目前为止，我使用scala 2.11和Java 8来构建Glue ETL作业使用的库。我们计划升级到带有Java 11的Scala 2.12，但不确定Glue ETL是否支持它们。

浏览 17提问于2021-02-03得票数 1

回答已采纳

2回答

问: AWS Lambda boto3 iot delete_job未实施？

、、、、

boto3文档描述了删除作业的功能。请参阅：我已经写了一个Lambda，它可以成功地create_job，cancel_job和list_job_executions_for_thing。delete_job函数不起作用。使用boto3文档中的示例： client=boto3.client('iot') response = client.delete_job( jobId='Upgrade00003', force=True ) 出现以下错误： { "errorMessage": "'IoT

浏览 2提问于2018-06-08得票数 2

1回答

如何将胶水作业的输出参数传递给step函数，并在step函数中作为另一个胶水作业的输入参数传递

、、、

我的第一份胶水作业的代码如下： import boto3 from awsglue.utils import getResolvedOptions import sys s3_path="s3://bucketname/filename" 我的第二份胶水工作： import boto3 from awsglue.utils import getResolvedOptions import sys args = getResolvedOptions(sys.argv,['s3_path&#

浏览 2提问于2022-02-04得票数 0

3回答

如何通过boto3获取亚马逊EC2的配额？

、、

我正在为AWS开发boto3 - SDK python。我如何通过如下的boto3库获得亚马逊网络服务的服务限制：

浏览 4提问于2016-09-28得票数 2

1回答

如何安装适用于Android的AWS SDK ?我应该如何安装？

、、、

我想用用户填写的凭证发布一个用于亚马逊网络服务管理的安卓应用程序，并且我想设置亚马逊网络服务软件开发工具包(假设它的工作方式类似于python和Java SDK的boto3 )。如何做到这一点？我找到了一个安装指南，但它似乎仅限于当前(我的)帐户，如果我真的理解它。我想管理与用户登录和凭据字段提供的任何配置文件。我开始觉得这是不可能的。我在亚马逊网络服务和boto3上有很多工作要做，我想用安卓实现一些类似的东西。

浏览 12提问于2018-01-30得票数 0

回答已采纳

1回答

在Glue Python Shell作业中使用AWS X-Ray

、、、、

是否可以使用标准部署环境在Glue python作业中使用？库不在中。但是，不包括在支持的库列表中对boto3进行测试的能力，似乎是一个明显的遗漏。预先感谢您的考虑和答复。

浏览 1提问于2020-06-26得票数 0

回答已采纳

1回答

AWS调度批处理-通过Boto3 SDK进行作业，并传递一些环境变量

、、、

我有一个亚马逊网络服务的批处理作业，它工作得很好，场景是当我们想要运行作业，我们正在提交批处理作业使用python BOTO3软件开发工具包。现在我想调度Batch-Job，我可以在其中指定时间，它需要在指定的时间提交Batch-Job。我现在正在使用cloud watch，但我想在提交Batch-Job时指定一些参数。任何人都有关于任何AWS服务的想法，在那里我可以用一些参数来安排事件，它需要用这些参数作为环境变量来提交Batch-Job。

浏览 1提问于2020-03-06得票数 0

1回答

如何通过Boto3查看已有密钥的存储级别？

、、、、

有没有办法使用Python2.7 + Boto3获取亚马逊网络服务(S3)中密钥的存储类？我知道在Boto2中是这样的： print key.storage_class 但是我找不到用Boto3获取的东西。

浏览 0提问于2017-01-12得票数 2

回答已采纳

1回答

在SageMaker中运行多个作业

、

我想知道是否有可能运行大量的“作业”(或“流水线”或任何正确的方式)来并行执行一些建模任务。因此，我计划做的是做一个ETL过程和EDA完成，然后当数据准备好后，我想解雇2000个建模工作。我们有2000个产品，每个作业可以从一个数据开始(SELECT * FROM data WHERE PROD_ID='xxxxxxxxx')，我的想法是并行运行这些训练作业(它们之间没有依赖关系-所以对我来说是有意义的)。首先- 1)在亚马逊网络服务SageMaker中可以做到吗? 2)正确的方法是什么? 3)我需要了解的特殊考虑因素是什么？提前谢谢你！

浏览 4提问于2021-11-29得票数 0

1回答

Boto3承担与MFA的交叉帐户角色

、、、、

使用python3和boto3，我如何在不同的亚马逊网络服务账户中承担角色，而在承担角色时需要启用多因素身份验证？寻找代码示例。本网站上的类似问题涵盖了boto3以外的技术，或者不包括MFA要求。

浏览 24提问于2020-11-23得票数 0

1回答

运行AWS batch时是否需要传递AWS AccessKey和AccessSecret？

、、、

我正在使用boto3与亚马逊网络服务批处理作业中的KMS进行通信。我获取KMS客户端的代码如下所示： KMS = boto3.client('kms') 我的问题是，我是否需要像这样显式传递AWS SecretKey和AWS AccessKey： KMS = boto3.client('kms', aws_access_key_id=ACCESS_KEY, aws_secret_access_key=SECRET_KEY) 或也许我只是在定义计算环境时设置了环境变量AWS_ACCES

浏览 1提问于2019-06-24得票数 1

1回答

用于关闭RDS的boto3 lambda脚本不起作用

、、、

我刚开始使用boto3和lambda，并试图通过Pycharm运行下面的函数。 import boto3 client = boto3.client('rds') response = client.stop_db_instance( DBInstanceIdentifier='dummy-mysql-rds' ) 但我收到以下错误： botocore.errorfactory.DBInstanceNotFoundFault:调用StopDBInstance操作时出现错误(DBInstanceNotFound)：找不到DBInstance dumm

浏览 15提问于2020-12-18得票数 0

1回答

Django -亚马逊网络服务S3 -移动文件

、、、、

我使用亚马逊网络服务S3作为我的默认文件存储系统。我有一个包含文件字段的模型，如下所示： class Segmentation(models.Model): file = models.FileField(...) 我在另一台服务器上运行图像处理作业，将处理后的图像转储到不同的亚马逊网络服务S3存储桶中。我想将处理后的图像保存在我的Segmentation表中。目前，我正在使用boto3手动将文件下载到我的“本地”服务器(我的django-app所在的服务器)，然后将其上传到本地S3存储桶，如下所示： from django.core.files import File import

浏览 25提问于2021-03-12得票数 0

1回答

在boto3中有没有类似于terraform的.tfstate文件？

、、

我是boto3的新手。我想使用boto3构建亚马逊网络服务的基础设施。但是如果我想销毁这个基础设施并构建一个新的基础设施，在boto3中有没有像terraform的.tfstate这样的文件可以用它来销毁使用它的基础设施呢？如果不存在，那么如何使用boto3实现地形破坏？

浏览 0提问于2017-01-25得票数 1

6回答

如何使用Boto3在AWS实例上执行命令

、、

谁能告诉我，我们是否可以在启动的亚马逊网络服务实例上使用Boto3执行外壳命令。我在一些地方读到过关于"boto.manage.cmdshell“的文章，但在Boto3中它被弃用了。感谢任何人的帮助。你好，Saurabh

浏览 0提问于2015-12-02得票数 14

1回答

使用boto3获取数据库中的表列表

、、、

我正在尝试从我的aws数据目录中的数据库中获取表的列表。我在试着用boto3。我在aws上的sagemaker笔记本上运行了下面的代码。它永远运行(比如超过30分钟)并且不返回任何结果。test_db中只有4个表。我的目标是运行类似的代码作为aws glue etl作业的一部分，我将在编辑后的aws etl作业脚本中运行该作业。有没有人看到可能的问题或建议如何做？代码： import boto3 from pprint import pprint glue = boto3.client('glue', region_name='us-east-2') re

浏览 0提问于2019-08-08得票数 3

1回答

generate_presigned_post中的Boto3 InvalidAccessKeyId

、、、、

我正在使用Python的Chalice库创建一个AWS Lambda和API。我的亚马逊网络服务凭证是使用github工作流亚马逊网络服务操作注入的，它能够chalice deploy。终端正在正常工作，并完美地部署到AWS。问题是：我使用Boto3的函数generate_presigned_post创建了一个预签名的上传表单，该函数位于以下文档中：但是，当我使用该函数的响应并使用它生成html时，在提交要上传的文件之后，它会返回我 <Error> <Code>InvalidAccessKeyId</Code> <Message> The

浏览 3提问于2020-04-02得票数 2

3回答

根据错误消息重试StepFunction任务

、

根据亚马逊网络服务的StepFunction文档，可以配置每个错误的重试，但我想知道是否可以使用错误消息中的详细信息来定义重试策略？在我的例子中，我触发了Glue ETL job，它可能会失败，并返回自定义异常NoDataLoadedException，所以我希望能够识别它，并且不会重试。下面是我的任务定义(第一个Retry块永远不会发生)： "ExecuteEtl": { "Type": "Task", "Resource": "arn:aws:states:::glue:startJobRun.

浏览 33提问于2019-02-09得票数 1

1回答

AWS Kinesis分块上传到亚马逊S3存储桶

、、、

我想从Kinesis上传一个多部分到我的亚马逊S3存储桶。由于亚马逊S3是一个文件系统，因此对于每个条目，它将在给定的存储桶名称下创建一个文件。我的亚马逊S3会在亚马逊S3中的那个特定文件夹中有新文件时立即触发Lambda函数，从而为亚马逊胶水作业提供数据。对于流数据，每秒将有多个文件。我如何在Kinesis端控制文件的大小，以便Kinesis仅在达到特定阈值后才在亚马逊S3存储桶上推送数据？所以当我达到那个尺寸的时候我就会触发我的工作。

浏览 6提问于2021-06-02得票数 0

3回答

从aws Glue脚本调用存储过程

、、、、

完成ETL作业后，在AWS Glue脚本中调用存储过程的最佳方法是什么？我使用PySpark从S3中获取数据并存储在暂存表中。在这个过程之后，需要调用一个存储过程。此存储过程将数据从暂存表加载到适当的MDS表中。如果我必须在ETL作业完成后调用一个存储过程，那么最好的方法是什么？如果我考虑AWS，在ETL之后是否可以通知lambda。

浏览 0提问于2017-10-22得票数 4

回答已采纳

1回答

无法连接到终结点URL："https://api.pricing.us-west-2.amazonaws.com/“

当我试图从亚马逊网络服务的boto3库获取价格时，我得到了这个错误。“无法连接到终结点URL："https://api.pricing.us-west-2.amazonaws.com/” import boto3 client = boto3.client('pricing') response = client.describe_services() print(response)

浏览 22提问于2019-09-20得票数 2

1回答

粘合作业失败，出现连接超时错误

、、

我有一个Glue ETL作业，它从目录中读取数据并写入s3。完成此操作后，需要触发爬虫程序来更新雅典娜中的数据。所以，我使用glue_client.start_crawler(Name='crawler_name')方法来启动一个爬虫程序。但是，每当我尝试从ETL胶水作业启动爬虫程序时，它都会失败，并显示以下错误 ConnectTimeoutError: Connect timeout on endpoint URL: "https://glue.eu-central-1.amazonaws.com/"

浏览 37提问于2020-08-03得票数 2

回答已采纳

1回答

他们有什么方法可以将vocareum (aws学生门户)与pyhton连接起来吗？

、、、、

我曾尝试使用boto3，但boto3重定向到了亚马逊网络服务的主门户网站，而不是vocareum。首先，它给我一个无法连接到服务器的错误，现在它是 ClientError:调用ListBuckets操作时出错(InvalidAccessKeyId)：您提供的ListBuckets访问密钥Id在我们的记录中不存在。

浏览 58提问于2020-09-17得票数 0

回答已采纳

1回答

EC2运行boto3以调用亚马逊网络服务需要哪项IAM策略？

、

我使用Fullec2 accessrole运行Ec2，运行一些带有Boto3模块的脚本，并调用一些亚马逊网络服务。运行boto3需要哪些额外的IAM权限？而不是在.aws文件夹下配置凭证文件。感谢你

浏览 2提问于2019-09-11得票数 0

3回答

获取Boto3中具有特定标签和值的EC2实例列表

、、、、

如何使用boto3的标签和值过滤亚马逊网络服务实例 import boto3 ec2 = boto3.resource('ec2') client = boto3.client('ec2') response = client.describe_tags( Filters=[{'Key': 'Owner', 'Value': 'user@example.com'}]) print(response)

浏览 27提问于2018-01-03得票数 12

1回答

python验证AWS S3封装ACL /获取有效的封装ACL列表

、、、

有没有办法验证录制的亚马逊网络服务S3 ACL，或者在boto3/botocore中有可用的有效ACL列表？ ? 我想验证用户输入ACL。我可以自己编写一个列表来验证，但我认为它可能在boto3或botocore中的某个地方。我查过了，但一无所获。

浏览 25提问于2021-03-27得票数 0

回答已采纳

1回答

批量S3事件触发的AWS Glue ETL作业

、、、

我有一个S3存储桶，其中有许多文件被丢弃(1000条记录/分钟)。我想在这些被删除的文件的批次上触发一个Glue ETL作业。我已经考虑过使用Firehose来聚合事件的批处理，但这需要大量的链接资源。像S3 -> Lambda -> Firehose -> ... 批量处理我的数据的最佳方式是什么？

浏览 19提问于2019-04-16得票数 0

1回答

Linux上的SQL Server 2017。包含Powershell步骤的作业

、、

我在Ubuntu 20.04上安装了SQL Server 2017 Standard，我想使用SQL Server代理作业自动执行备份过程。此作业将创建备份文件，然后将其上载到亚马逊网络服务S3。要将.bak文件复制到亚马逊网络服务S3，我想使用亚马逊网络服务工具PowerShell (我已经安装在EC2实例上)，但是我在SQL Server作业中看不到"PowerShell“任务类型。这一直存在于Windows上的SQL Server中。 ? 我可以做些什么来将PowerShell步骤类型添加到Linux上的SQL Server？

浏览 21提问于2020-12-13得票数 0

回答已采纳

1回答

是否有API可用于获取AWS检查员调查结果数据

、、

我已经配置了亚马逊网络服务检查员模板来扫描亚马逊网络服务EC2实例。我能够运行检查器，并通过它获得调查结果/数据。但现在我希望automation/API能够以原始或JSON格式的数据获得相同的AWS检查员调查结果/数据。我尝试了boto3的get_assessment_report方法，但只能得到HTML或PDF格式，而不是JSON。

浏览 9提问于2019-07-19得票数 1

2回答