腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1400)
视频
沙龙
1
回答
当我使用job glue时,
亚马逊
S3
中
的
数据是否会出现在公共互联网上?
amazon-web-services
、
amazon-s3
、
aws-glue
我正在使用
亚马逊
网络服务
创建一条数据传输线,我
的
数据存储在
亚马逊
S3存储桶
中
,我计划使用
胶水
爬虫在前缀下抓取数据以提取元数据,并在
胶水
作业
之后执行
ETL
并将数据保存到另一个存储桶
中
。我
的
问题是:这些服务在哪个网络
中
工作并相互通信?有没有可能通过公共互联网将数据从
亚马逊
S3移动到
胶水
? 是否有任何指向aws文档
的
链接,用于解释AW
浏览 18
提问于2021-06-29
得票数 1
1
回答
亚马逊
网络服务
胶水
ETL
作业
中
的
Boto3
胶水
python-3.x
、
pyspark
、
aws-glue
、
aws-glue-data-catalog
我正在运行AWS Glue
ETL
job ( PySpark ),在那里我已经创建了Glue
的
boto3
客户端来启动爬虫程序并执行一些其他
的
PySpark处理。问题是
胶水
作业
在start_crawler被调用后继续运行。它既不会给出任何错误,也不会结束或启动爬行器。我
的
代码片段如下: import sysimport time glue_client = boto3.client('glue', re
浏览 23
提问于2021-08-09
得票数 0
1
回答
AWS Glue Workflow在任何
ETL
作业
失败时使用Amazon触发电子邮件
amazon-web-services
、
error-handling
、
aws-glue
、
amazon-ses
、
aws-glue-workflow
在AWS Glue
中
,我使用工作流执行几个
ETL
作业
,现在我想通过电子邮件通知企业任何
ETL
作业
的
失败。我需要帮助,以获得失败
的
作业
名称和错误导致
作业
失败,并将它传递给
作业
,这将触发电子邮件使用
亚马逊
SES。这必须使用Glue Workflow来触发第二个
作业
,该
作业
读取第一个
作业
的
输出消息并发送电子邮件。需要在不使用Event
浏览 4
提问于2022-08-30
得票数 1
2
回答
如何自动化
ETL
作业
的
部署和运行?
automation
、
amazon-redshift
、
etl
、
data-warehouse
、
aws-glue
我们有
ETL
作业
,即java jar(执行
etl
操作)是通过shell脚本运行
的
。根据正在运行
的
作业
,使用一些参数传递shell脚本。我们在
亚马逊
网络服务
上拥有一切,即Ec2 talend服务器,Postgresql RDS,Redshift,ansible等。我们如何自动化这个过程?如何部署和处理传递自定义参数等。欢迎使用指针。
浏览 5
提问于2018-06-28
得票数 2
3
回答
如何以编程方式将参数传递给使用
boto3
create_job
的
胶接
作业
python
、
amazon-web-services
、
boto3
、
aws-sdk
、
aws-glue
我正在使用
boto3
创建
作业
脚本创建
胶水
作业
,并试图将默认
的
参数值传递到路径位置以运行不同
的
s3桶文件。import
boto3
client = boto3.client('glue') Name='j
浏览 15
提问于2022-09-07
得票数 0
1
回答
AWS Glue Python Shell与Oracle
的
连接
python
、
oracle
、
amazon-web-services
、
aws-glue
我成功地在dev_endpoint或虚拟机
中
完成了所有内容(在下面的链接
中
描述),但我
的
目标是让AWS Glue Python。AWS Glue Python
中
的
所有库都必须以.whl或.egg包
的
形式出现,然后才能安装它们。但是AWS Glue是无服务器
的
,我无法找到它们
的
安装位置,因此我可以正确地设置rpath。
浏览 2
提问于2020-04-14
得票数 0
1
回答
无法创建AWS Glue
作业
而不使用Python
Boto3
提供脚本位置
boto3
、
aws-glue
、
terraform-provider-aws
我试图使用Python来创建
Boto3
胶水
作业
,而不是使用AWS控制台。我无法找到为数据传输生成
胶水
脚本
的
选项。AWS
胶水
UI提供了在
作业
类型为Spark时生成脚本
的
选项。 如何使用python
boto3
或使用terraform模板实现相同
的
目标?
浏览 8
提问于2022-01-17
得票数 0
1
回答
如何在使用YAML(无服务器)使用glue 1.0版部署AWS glue
作业
时选择python版本3
python
、
amazon-web-services
、
aws-glue
、
aws-glue-spark
我正在使用无服务器
的
YAML代码部署AWS glue。
亚马逊
网络服务
已经提供了GlueVersion参数来选择要使用
的
胶水
版本,我将其设置为'1.0‘。我想使用Python 3,但它正在
胶水
作业
中部署到python 2。有没有人知道如何使用YAML部署代码将其设置为使用python3,而无需手动更改glue
作业
?
浏览 2
提问于2020-11-24
得票数 0
1
回答
如何将
胶水
作业
的
输出参数传递给step函数,并在step函数
中
作为另一个
胶水
作业
的
输入参数传递
amazon-web-services
、
amazon-s3
、
aws-glue
、
aws-step-functions
我
的
第一份
胶水
作业
的
代码如下: from awsglue.utils import getResolvedOptions我
的
第二份
胶水
工作: from awsglue.utils import getResolvedOpt
浏览 2
提问于2022-02-04
得票数 0
1
回答
采用S3端点和存储桶策略
的
AWS
胶水
aws-glue
我有一个目前
的
S3和
胶水
基础设施如下。 部署在VPC S3存储桶
中
的
S3端点具有仅允许来自端点
的
流量
的
存储桶策略。粘合有权访问所述存储桶
的
IAM角色。当我运行一个AWS Glue Crawler
作业
时,我得到了一个错误“用户没有访问IAM存储桶
的
权限”,我试图提供S3用户ID访问S3存储桶。我在S3存储桶策略
中
添加了IAM角色和IAM ID。当我删除存储桶策略时,即使IAM用户ID对存储桶没有访问权限,爬虫
作
浏览 28
提问于2020-03-25
得票数 0
3
回答
如何在AWS
胶水
作业
中使用额外文件
python
、
amazon-s3
、
aws-glue
我有一个用python编写
的
ETL
作业
,它由具有以下目录结构
的
多个脚本组成; | | | | |-- dynamoDB_service.py在上传到dev终结点创建
的
ETL
集群后,上面的代码在dev端点上运行得非常好。因为现在我想在生产中运行它,我想为它创建一个合适
的
胶水
作业
。但是,当我以my_
etl
_
浏览 3
提问于2020-04-14
得票数 9
回答已采纳
8
回答
我们是否可以使用AWS Glue只将一个文件从一个S3文件夹复制到另一个S3文件夹?
amazon-s3
、
aws-glue
我需要将压缩文件从一个
亚马逊
网络服务
S3文件夹复制到另一个,并希望将其设置为计划
的
亚马逊
网络服务
胶水
作业
。对于这么简单
的
任务,我找不到一个例子。如果你知道答案,请帮忙。答案可能在AWS Lambda或其他AWS工具
中
。 非常感谢!
浏览 108
提问于2017-12-06
得票数 4
回答已采纳
1
回答
有没有办法从AWS Glue
作业
发布自定义指标?
amazon-web-services
、
amazon-cloudwatch
、
aws-glue
我正在使用AWS Glue
作业
跨S3存储桶移动和转换数据,我想构建自定义累加器来监控我正在接收和发送
的
行数,以及其他自定义指标。监控这些指标的最佳方式是什么?根据这篇文档:我可以在我
的
glue工作中跟踪一般指标,但似乎没有一个好方法通过cloudwatch发送自定义指标。
浏览 1
提问于2021-06-01
得票数 0
2
回答
AWS Glue --从
作业
中
访问工作流参数
python
、
amazon-web-services
、
aws-glue
如何从
胶水
作业
中
检索
胶水
工作流参数? 我有一个"python shell“类型
的
AWS
胶水
作业
,它是从
胶水
工作流程
中
定期触发
的
。
作业
的
代码将从大量不同
的
工作流
中
重用,因此我希望检索工作流参数,以消除对冗余
作业
的
需求。
亚马逊
网络服务
开发人员指南提供了以下教程:http
浏览 32
提问于2019-06-30
得票数 1
1
回答
用于多谓词条件
的
胶水
的
AWS CloudFormation模板
amazon-web-services
、
amazon-cloudformation
、
aws-glue
我需要编写
亚马逊
网络服务
CloudFormation模板
的
代码为
亚马逊
网络服务
胶水
,在那里我创建了多个
胶水
作业
的
单一模板。我为第二个
作业
添加了谓词条件。不幸
的
是,尽管谓词接受多个条件,但它只接受前一个
作业
的
一种状态,就像上一个
作业
状态成功、失败或停止一样,下一个
作业
应该运行。但我需要它在多个状态下运行,即使前一个
作业</
浏览 7
提问于2021-04-30
得票数 0
回答已采纳
1
回答
如何使用
boto3
python调用带有一定数量DPU
的
AWS
胶水
作业
?
python
、
amazon-web-services
、
api
、
boto3
、
aws-glue
我一直在尝试通过
boto3
使用API脚本成功地调用一个
胶水
作业
。 但是我不能用比当前分配
的
DPU更多
的
DPU来调用
胶水
作业
。有没有人知道有没有文档可以通过
boto3
应用程序接口
的
python脚本来帮助增加DPU限制?
浏览 44
提问于2021-11-18
得票数 0
1
回答
我可以在Glue中将RDD转换为DataFrame吗?
apache-spark
、
pyspark
、
aws-glue
我
的
lambda函数通过
boto3
glue.start_job_run触发
胶水
作业
。这是我
的
胶水
作业
脚本import sys conf = SparkConf().setAp
浏览 3
提问于2022-03-20
得票数 3
回答已采纳
2
回答
如何在从AWS Glue加载雪花表之前将其截断
snowflake-cloud-data-platform
我们有一些AWS Glue
作业
,它们从
亚马逊
S3位置读取数据,并将数据写入雪花表。我们希望在每次加载之前截断表。有人能帮我做这件事吗。 谢谢,拉姆。
浏览 15
提问于2021-01-28
得票数 1
3
回答
从
亚马逊
网络服务
DataLake到远程数据服务
amazon-web-services
、
amazon-s3
、
etl
、
amazon-rds
、
data-lake
我对DataLakes比较陌生,我正在为一个
亚马逊
网络服务
项目做一些研究。 我已经创建了一个DataLake,并从
胶水
爬虫中生成了表,我可以在S3
中
查看数据并使用雅典娜进行查询。到目前一切尚好。需要将存储在datalake
中
的
部分数据转换为RDS,以便应用程序读取数据。从S3 DataLake到RDS
的
ETL
的
最佳解决方案是什么?我见过
的
大多数帖子都谈到了从RDS到S3
的
ETL
,而
浏览 6
提问于2019-11-08
得票数 1
2
回答
如何使用AWS java SDK通过AWS glue
作业
自动生成脚本
aws-glue
、
aws-java-sdk
、
aws-java-sdk-2.x
我正在使用Java Sdk创建
胶水
作业
。它只有两个必需
的
params命令和
胶水
版本。但我需要创建具有自动脚本生成
的
作业
。正如我们可以从控制台中所做
的
那样,我们添加了数据源、由AWS Glue生成
的
建议脚本、转换类型、数据目标、模式n all。如何使用java sdk或aws glue api将这些参数添加到glue
作业
。
浏览 27
提问于2020-02-11
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
全自动螺纹点胶机
桌面式伺服点胶机
锂电池点胶机
双阀点胶机
喷射点胶机设备介绍
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券