腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(8141)
视频
沙龙
1
回答
使用
与
S3
对应
的
表
命名
约定
,
在
源
端
对
单个
胶水
作业
中
的
多个
表
运行
SQL
脚本
。
pyspark
、
aws-glue
sql
_list = ['(select * from table1 where rownum <= 100) alias1','(select * from table2 where rownum<= 100) alias2'] for
sql
_statement in
sql
_list: df = spark.read.format("jdbc").option("driver", jdbc_driver_namedb_password).op
浏览 16
提问于2020-03-30
得票数 0
回答已采纳
1
回答
使用
手动创建
的
表
运行
时,AwS
胶水
作业
读取0文件。
aws-glue
、
aws-glue-data-catalog
我想
运行
胶水
作业
来完成从
s3
到Postgres
的
许多csv文件
的
ETL过程。每天都会将新文件写入
s3
源
桶。因此,当我用向导创建
胶水
作业
时,当被问到要
使用
哪个
表
时,我只从glue数据目录(基于最大
的
csv文件创建)中选择一个
表
。因此,
在
DB
中
,我只有来自最大文件
的
数据,而不是来自所有csv文件<
浏览 0
提问于2020-03-26
得票数 3
1
回答
使用
Boto3和AWS Glue
运行
多个
SQL
语句
python-3.x
、
amazon-web-services
、
amazon-s3
、
boto3
、
amazon-athena
我想
使用
boto3
在
单个
AWS Glue
脚本
中
运行
多个
SQL
语句。第一个查询从
S3
存储桶(地块文件)创建一个
表
import boto3 config = {'OutputLocation': '
s3
然后,我必须
运行
以下查询来更新分区并插入数据。,当我
在</
浏览 56
提问于2021-06-23
得票数 0
2
回答
用爬虫更新手工创建
的
aws
胶水
数据目录
表
amazon-web-services
、
aws-glue
、
aws-glue-data-catalog
我正在
使用
AWS
胶水
和
s3
上
的
许多文件,每天都会追加新
的
文件。我尝试创建并
运行
一个爬虫来推断出那些csv文件
的
模式。但是,我只需要一个
表
在数据目录
中
的
所有这些文件! 因此,我手动创建了单独
的
数据目录
表
,当我将这个
表
与
胶水
作业
一起
使用
时,没有一个
s3
csv文件被处理。我猜这是
浏览 8
提问于2020-03-27
得票数 1
3
回答
从亚马逊网络服务DataLake到远程数据服务
amazon-web-services
、
amazon-s3
、
etl
、
amazon-rds
、
data-lake
我
对
DataLakes比较陌生,我正在为一个亚马逊网络服务项目做一些研究。 我已经创建了一个DataLake,并从
胶水
爬虫中生成了
表
,我可以
在
S3
中
查看数据并
使用
雅典娜进行查询。到目前一切尚好。需要将存储
在
datalake
中
的
部分数据转换为RDS,以便应用程序读取数据。从
S3
DataLake到RDS
的
ETL
的
最佳解决方案是什么?我见过
的
大多数帖
浏览 6
提问于2019-11-08
得票数 1
1
回答
AWS Glue将文件从JSON转换为具有
与
源
表相同分区
的
Parquet
amazon-web-services
、
bigdata
、
aws-glue
我们
使用
AWS
胶水
来转换存储
在
S3
数据仓库
中
的
JSON文件。 姓名、年份、月份、日期、时间
浏览 1
提问于2018-02-12
得票数 8
3
回答
AWS
胶水
每次都将完整
的
数据从
源
复制到目标,即使在有书签时也是如此。
aws-glue
我
在
aws
胶水
控制台中从向导中生成了一个
胶水
作业
。在生成任务时,我没有更改默认
脚本
。它从postgres数据库
表
(
源
)
中
获取数据,并写入另一个postgres数据库(Target)。我
在
ide中选择了enable书签。每当任务
运行
时,它都会将完整
的
源
数据库
表
复制到目标
表
,即使
源
中
没有插入、更新或删除。我理解<e
浏览 2
提问于2017-12-18
得票数 3
回答已采纳
1
回答
是否可以将mysql rds数据库中选择列
的
多个
表
中
的
数据添加到具有另一个mysql rds
表
的
单个
表
中
amazon-web-services
、
aws-glue
是否可以
使用
AWS Glue将mysql rds数据库
多个
选择性列
的
表
中
的
数据添加到具有另一个mysql rds实例
的
单个
表
中
。谢谢
浏览 1
提问于2020-01-06
得票数 1
1
回答
创建AWS
胶水
作业
需要爬虫吗?
amazon-web-services
、
pyspark
、
boto3
、
aws-glue
、
aws-lake-formation
我
的
问题是:创建
胶水
作业
需要爬虫&
在
湖
中
创建数据库吗? 我
的
aws角色有一些问题,我没有被授权
在
LakeFormation
中
创建资源,所以我想我是否可以跳过它们,只创建一个
胶水
作业
并测试我
的
脚本
?例如,我只想
对
一个输入
的
.txt文件进行测试,我将它存储
在
S3
中
,我还需要爬虫吗?我是否可
浏览 3
提问于2021-02-07
得票数 3
回答已采纳
3
回答
AWS Lambda是否比AWS Glue Job更受欢迎?
amazon-web-services
、
aws-lambda
、
aws-glue
在
AWS
胶水
作业
中
,我们可以编写一些
脚本
并通过job执行
脚本
。
在
AWS Lambda
中
,我们也可以编写相同
的
脚本
并执行上述
作业
中提供
的
相同逻辑。因此,我
的
问题不是AWS
胶水
作业
和AWS Lambda之间
的
区别,而是我试图理解何时AWS
胶水
作业
应该优先于AWS Lambda,
浏览 11
提问于2020-08-26
得票数 6
1
回答
将数据从AWS
S3
复制到
postgresql
、
amazon-s3
、
amazon-aurora
我正在尝试将数据从AWS
S3
复制到。目前,我
的
程序如下:
运行
"COPY FROM STDIN ...“命令将数据从输入流加载到Aurora。我想知道是否有一个命令可以直接从
S3
复制到Aurora。
浏览 4
提问于2017-03-31
得票数 9
1
回答
AWS Glue Crawler将所有数据发送到Glue Catalog和Athena,而无需Glue Job
amazon-web-services
、
aws-glue
、
aws-glue-data-catalog
我
对
AWS
胶水
有新
的
了解。我正在
使用
AWS Glue Crawler从两个
S3
存储桶
中
抓取数据。我
在
每个存储桶中都有一个文件。AWS Glue Crawler
在
AWS Glue Data Catalog
中
创建了两个
表
,我还可以
在
AWS Athena
中
查询数据。我
的
理解是为了
在
雅典娜
中
获取数据,我需要创建
胶水
<e
浏览 62
提问于2021-10-08
得票数 1
回答已采纳
2
回答
spark.
sql
.files.maxPartitionBytes不限制写入分区
的
最大大小
apache-spark
、
apache-spark-sql
、
aws-glue
我正在尝试将拼板数据从另一个
s3
桶复制到我
的
s3
桶
中
。我希望将每个分区
的
大小限制为128 MB。我认为默认情况下,spark.
sql
.files.maxPartitionBytes应该设置为128 MB,但是当我
在
复制后查看
s3
中
的
分区文件时,我会看到大约226 MB
的
单个
分区文件。我看了这篇文章,它建议我设置这个星火配置键,以限制分区
的
最大大小:,但它似乎不起作
浏览 54
提问于2020-06-30
得票数 1
5
回答
AWS
胶水
书签
amazon-web-services
、
pyspark
、
parquet
、
aws-glue
如何验证我
的
书签是否正常工作?我发现,当我在上一次完成后立即
运行
一个
作业
时,似乎仍然需要很长时间。为什么会这样呢?我以为它不会读取它已经处理过
的
文件?
脚本
如下所示:from awsglue.transforms import *fromargs['JOB_NAME'], args) inputGDF = glueContext.create_dynamic_frame_
浏览 0
提问于2018-12-11
得票数 5
2
回答
如何以编程方式重
命名
AWS Glue Catalog
中
的
列名
aws-glue
我已经
使用
crawler填充了25个
表
的
胶水
目录。现在,所有的
表
名都有通用
的
列名。有没有更好
的
方法通过编程重
命名
列,而不是手动逐个重
命名
?我也不想用不同
的
列名再次写入相同
的
数据。我遇到了RenameField类,但不确定它是只重
命名
目录还是重新写入整个数据?
浏览 4
提问于2018-08-01
得票数 1
1
回答
对于col_a
中
的
每个不同值,生成一个新
表
amazon-web-services
、
amazon-s3
、
aws-lambda
、
aws-glue
、
amazon-athena
我
在
S3
中
有一个雅典娜数据
表
,它充当
源
表
,列为id、name、event。对于该
表
中
的
每个唯一name值,我希望输出一个新
表
,其中包含
与
该name值相
对应
的
所有行,并将其保存到
S3
中
的
不同存储桶
中
。这将导致存储
在
S3
中
的
n
浏览 5
提问于2020-02-13
得票数 1
回答已采纳
1
回答
自动从
S3
加载数据到红移
amazon-web-services
、
amazon-s3
、
aws-lambda
、
amazon-redshift
S3
的
数据是从kafka流消费者应用程序中转储出来
的
。
S3
中
的
文件将json对象
与
下一行分隔开。此数据需要加载到红移
中
的
abc事件
表
中
。通过爬行器
在
Data
中
创建一个
表
,然后
在
glue
中
运行
ETLL
浏览 9
提问于2020-09-10
得票数 1
回答已采纳
1
回答
雅典娜- Glue
中
管道列名、列号、数据类型变化检测器
的
需要
mysql
、
aws-glue
、
amazon-athena
我
在
AWS
中
设置了下面的管道(在这里尽量不要泄露太多
的
公司信息)。这可能过于简单化了,但现在开始了。公司要求我们确保
在
mySQL
中
维护列名、数据类
浏览 2
提问于2022-07-05
得票数 1
回答已采纳
3
回答
在
Athena CTAS上创建100
多个
分区
的
替代方案
amazon-web-services
、
amazon-s3
、
amazon-athena
我目前正在根据存储
在
亚马逊
S3
中
的
信息创建一些新
表
。第一次
使用
AWS,今天我了解到Amazon不能通过CTAS查询创建超过100个分区。我正在
使用
sql
进行转换,它工作得很好,但需要一种方法一次存储100
多个
分区,以使过程更加可靠。我将分区设置为日期,因此
在
4个月内,如果需要重新创建
表
以通过
sql
加载大量数据(其中有转换),我
的
流程将失败。 知道我怎么能做到这一点
浏览 10
提问于2019-10-25
得票数 1
回答已采纳
1
回答
Kafka
与
AWS GLUE集成
apache-kafka
、
aws-glue-spark
找不到此特定集成
的
任何特定组。1)当我
在
AWS
胶水
控制台中创建到Kafka
的
连接时,AWS
胶水
控制台上
的
‘测试连接’选项被禁用(灰显)。所以不确定我创建
的
连接是否正常。2)<em
浏览 0
提问于2020-06-04
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Rheos SQL: 高效易用的实时流式SQL处理平台
如何在SQL Server中将表从一个数据库复制到另一个数据库
Apache DolphinScheduler 正式发布3.0.0 版本
ETL-KETTLE工具使用
Spring Boot中使用Flyway来管理数据库版本
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券