腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
__
HIVE_DEFAULT_PARTITION__
作为
glue
ETL
作业
中
的
分区
值
apache-spark
、
amazon-s3
、
pyspark
、
boto3
、
aws-glue
我有CSV数据,这些数据是通过
glue
爬虫爬行
的
,最后保存在一个表
中
。 我正在尝试运行一个
ETL
作业
,将磁盘上
的
数据重新
分区
到date列
的
一些组件
中
。然后将CSV转换为镶木。例如,我
的
数据中有一个名为"date“
的
列,并希望在s3上将数据划分为年、月、日
分区
。我能够转换为parquet并让它正确地对序列号
值
进行
分区
(另一列),但它将与日
浏览 72
提问于2019-03-20
得票数 4
4
回答
AWS
Glue
ETL
和PySpark以及
分区
数据:如何从
分区
创建数据
amazon-web-services
、
amazon-s3
、
pyspark
、
aws-glue
我在day
分区
中
的
文件上运行
Glue
ETL
作业
,并创建
Glue
dynamic_frame_from_options。然后,我使用ApplyMapping.apply应用一些映射,它
的
工作原理就像一种魅力。 但是,我想根据每个文件
的
分区
创建一个包含hour
值
的
新列。我可以使用Spark创建一个带有常量
的
新列,但是如何使这个列使用
分区
作为
浏览 2
提问于2019-04-30
得票数 3
回答已采纳
1
回答
创建AWS胶水
作业
需要爬虫吗?
amazon-web-services
、
pyspark
、
boto3
、
aws-glue
、
aws-lake-formation
我正在通过下面的页面:来学习“用Pyspark来学习
Glue
”。 我
的
问题是:创建胶水
作业
需要爬虫&在湖
中
创建数据库吗?我
的
aws角色有一些问题,我没有被授权在LakeFormation
中
创建资源,所以我想我是否可以跳过它们,只创建一个胶水
作业
并测试我
的
脚本?例如,我只想对一个输入
的
.txt文件进行测试,我将它存储在S3
中
,我还需要爬虫吗?我是否可以使用boto3创建一个胶水
作业
来测试脚本并
浏览 3
提问于2021-02-07
得票数 3
回答已采纳
1
回答
使用
Glue
的
增量
ETL
etl
、
aws-glue
场景:源团队在s3
中
每1小时创建一次文件(hrly
分区
)。我想每4小时处理一次。
Glue
etl
将读取s3文件(已
分区
的
hrly)并处理存储在不同
的
s3文件夹
中
。 注:胶水
ETL
是从气流
中
调用
的
。
浏览 9
提问于2022-04-18
得票数 0
2
回答
使用Amazon Kinesis Firehose按同一密钥聚合数据
amazon-kinesis
、
amazon-kinesis-firehose
我有一个用例,我希望根据特定
的
键聚合数据,以便在特定
的
时间段后对其进行批处理。 键值事先是未知
的
,但我希望所有带有键A
的
记录一起从流
中
返回,所有带有键B
的
记录一起从流
中
返回,依此类推。是否可以使用AWS Kinesis firehose自定义
分区
执行此操作?
浏览 0
提问于2021-01-20
得票数 0
2
回答
为S3和未知模式
中
的
数据创建
Glue
数据目录
中
的
表
amazon-web-services
、
amazon-s3
、
amazon-redshift
、
aws-glue
、
aws-glue-data-catalog
我当前
的
用例是,在基于
ETL
的
服务(NOTE:
ETL
服务不使用
Glue
ETL
,它是一个独立
的
服务)
中
,我从AWS集群获得一些数据到S3
中
。然后将S3
中
的
数据输入T和L
作业
。我想将元数据填充到
Glue
目录
中
。最基本
的
解决方案是使用
Glue
Crawler,但是爬虫运行大约1小时20分钟(很多s3
分区</
浏览 4
提问于2020-08-14
得票数 1
回答已采纳
2
回答
如何在从AWS
Glue
加载雪花表之前将其截断
snowflake-cloud-data-platform
我们有一些AWS
Glue
作业
,它们从亚马逊S3位置读取数据,并将数据写入雪花表。我们希望在每次加载之前截断表。有人能帮我做这件事吗。 谢谢,拉姆。
浏览 15
提问于2021-01-28
得票数 1
1
回答
为什么新
的
列被添加到拼花表
中
,而无法从胶水
的
pyspark
作业
中
获得?
pyspark
、
parquet
、
aws-glue
我们一直在探索如何使用
Glue
将一些JSON数据转换为parquet。我们尝试过
的
一种情况是在拼花表
中
添加一列。所以
分区
1有A列,
分区
2有A,B列,然后我们想编写进一步
的
Glue
ETL
作业
来聚合parquet表,但是新列不可用。使用
glue
_context.create_dynamic_frame.from_catalog加载动态框架,我们
的
新列从未出现在模式
中
。 我们为我们<e
浏览 4
提问于2019-04-09
得票数 8
2
回答
aws胶水python shell
作业
与火花
作业
的
最佳用例是什么?
amazon-web-services
、
apache-spark
、
aws-glue
一直使用aws胶水python shell
作业
来构建简单
的
数据
etl
作业
,对于spark
作业
,只使用过一两次用于在JDBC数据上转换为orc格式或执行星火sql。因此,想知道每个用例
的
最佳/典型用例是什么?一些文档说python
作业
适用于简单
的
工作,而火花则适用于更复杂
的
作业
,对吗?你能分享更多这方面的经验吗? 非常感谢
浏览 8
提问于2020-02-07
得票数 6
回答已采纳
3
回答
从EMR迁移到AWS
Glue
后,在Spark SQL
中
找不到表
apache-spark
、
amazon-emr
、
aws-glue
我在EMR上有Spark
作业
,并且EMR被配置为对Hive和Spark元数据使用
Glue
目录。我创建了Hive外部表,它们出现在
Glue
目录
中
,我
的
Spark
作业
可以在Spark SQL
中
引用它们,比如spark.sql("select * from hive_table ...")现在,当我尝试在
Glue
作业
中
运行相同
的
代码时,它失败了,并出现"table not f
浏览 29
提问于2019-02-09
得票数 1
2
回答
AWS胶着
ETL
的
最佳数据大小是什么
amazon-web-services
、
aws-glue
我计划在
ETL
过程中使用AWS
Glue
,并将自定义python代码
作为
AWS
Glue
作业
编写并运行。我在AWS文档中发现,在默认情况下,AWS为一个
作业
分配10个job.Is
的
最大DPU限制(我看不到限制部分
中
的
任何内容,即每个
作业
限制
的
DPU最大
值
)。或者,是否存在MB / GB
中
的
最佳数据大小,以避免内存不足
的
浏览 0
提问于2018-06-18
得票数 1
回答已采纳
2
回答
AWS胶水目录
作业
上
的
MSCK修复命令
amazon-web-services
、
aws-glue
我们是否可以安排AWS胶水
作业
执行MSCK修复命令,以便将新添加
分区
的
元数据添加到胶水目录
中
?
Glue
ETL
脚本可以在不调用Athena
的
情况下执行MSCK修复表命令吗?
浏览 0
提问于2018-04-10
得票数 2
1
回答
AWS
Glue
- Pick动态文件
python
、
amazon-web-services
、
pyspark
、
aws-glue
有人知道如何从S3存储桶
中
获取动态文件吗?我在S3存储桶上设置了一个爬虫,然而,我
的
问题是,每天都会有后缀为YYYY-MM-DD-HH-MM-SS
的
新文件到来。当我通过目录读取表时,它会读取目录
中
存在
的
所有文件吗?是否可以动态挑选给定日期
的
最新三个文件,并将其用作源文件? 谢谢!
浏览 1
提问于2018-09-29
得票数 1
1
回答
AWS
Glue
删除源上已删除
的
目标数据
amazon-web-services
、
aws-glue
我计划使用AWS
Glue
将数据从源数据库发送/转换到目标数据库。
Glue
ETL
作业
运行并删除从源
中
删除
的</em
浏览 3
提问于2022-06-08
得票数 0
1
回答
使用boto3获取数据库
中
的
表列表
python-3.x
、
boto3
、
aws-glue
、
aws-glue-data-catalog
我正在尝试从我
的
aws数据目录
中
的
数据库
中
获取表
的
列表。我在试着用boto3。我在aws上
的
sagemaker笔记本上运行了下面的代码。它永远运行(比如超过30分钟)并且不返回任何结果。test_db
中
只有4个表。我
的
目标是运行类似的代码
作为
aws
glue
etl
作业
的
一部分,我将在编辑后
的
aws
etl
作业
浏览 0
提问于2019-08-08
得票数 3
1
回答
如何使用AWS管理控制台将配置文件引用为额外文件?
python
、
amazon-web-services
、
amazon-s3
、
config
、
aws-glue
我正在尝试使用
Glue
ETL
作为
Python脚本
的
作业
调度程序,该脚本还引用了JSON配置文件。我所做
的
是将我
的
配置文件上传到与
Glue
ETL
的
python相同
的
S3桶
中
,我在Refer
浏览 1
提问于2021-08-05
得票数 1
回答已采纳
1
回答
在AWS
Glue
ETL
作业
中
从S3加载
分区
的
json文件
amazon-web-services
、
amazon-s3
、
aws-glue
我尝试在S3存储中加载像这样
分区
的
json文件: |-json-data |-y=something{}, format='
浏览 32
提问于2020-06-10
得票数 1
回答已采纳
1
回答
手动设置AWS胶
ETL
书签
amazon-web-services
、
aws-glue
、
aws-glue-data-catalog
、
aws-glue-spark
我
的
项目正在向一个新
的
AWS帐户过渡,我们正试图找到一种方法来持久化我们
的
AWS
Glue
ETL
书签。我们有大量已处理
的
数据,我们正在复制到新
的
帐户,并希望避免再处理。据我理解,
Glue
书签只是后端
的
时间戳,理想情况下,我们可以获得旧
的
书签,然后手动为新AWS帐户
中
匹配
的
作业
设置书签。就解决办法而言,我
的
最佳选择似乎是: 为
Glue
浏览 3
提问于2021-05-25
得票数 3
回答已采纳
1
回答
是否可以将每个aws动态记录写入不同
的
s3路径
pyspark
、
aws-glue
、
aws-glue-spark
我是新
的
AWS
glue
。我需要将动态框架
中
的
每条记录写入s3
中
的
自定义文件夹路径。year>/<month>/<day>/<somegroupid>/<random_file_name>.json 在这里,'year', 'month', 'day', 'somegroupid'可以
作为
每条记录<
浏览 1
提问于2021-01-21
得票数 1
1
回答
如何将一个DynamoDB表复制到另一个表
中
,同时在过程
中
更改主键?
amazon-web-services
、
amazon-dynamodb
、
amazon-data-pipeline
我在这里找到了一些关于将一个dynamoDB表复制到另一个表
的
参考资料,但是在执行此操作时,我很难找到任何涉及更改主键
的
内容。基本上,我有一个类似于这样
的
模式(字段/数据截然不同,但想法是相同
的
): PK Author Text LastInitial-
浏览 29
提问于2019-06-15
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券