腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Glue
从
S3
桶中转换
CSV
文件
,并将转换后
的
数据保存回另一个
S3
桶
amazon-web-services
、
amazon-s3
、
aws-glue
目的是
使用
Glue
将
数据(
csv
文件
)从一个
S3
桶转
换为
另一个
S3
桶。I创建了
CSV
分类器,i创建了一个爬虫来扫描
S3
桶
中
的
数据。。我被困
的
地方: 无法找到
如何
将
输出再次
存储
在
S3
中
,而不将其保存在任何RDS或其他数据
浏览 1
提问于2020-09-09
得票数 0
回答已采纳
5
回答
如何
使用
AWS胶
将
多个
CSV
文件
转
换为
Parquet
amazon-s3
、
parquet
、
amazon-athena
、
aws-glue
我
使用
AWS
S3
、
Glue
和Athena,设置如下:我
的
原始数据作为
CSV
文件
存储
在
S3
上。我
使用
Glue
for ETL,
使用
Athena查询数据。由于我
使用
雅典娜,我想把
CSV
文件
转
换为
Parquet。我现在用AWS胶来
浏览 1
提问于2018-04-23
得票数 16
回答已采纳
3
回答
无法填充AWS
Glue
ETL作业指标
amazon-web-services
、
amazon-s3
、
amazon-redshift
、
metrics
、
aws-glue
我正在尝试为某些测试填充最大可能
的
Glue
作业度量,下面是我创建
的
设置: ETL作业最终从
s3
中
的
csv
文件
中
读取数据,并将其
浏览 0
提问于2020-04-27
得票数 2
2
回答
从
Glue
Catalog和
Glue
Py Spark脚本
中
的
动态路径同步
CSV
文件
amazon-web-services
、
amazon-s3
、
pyspark
、
aws-glue
我每天都将
CSV
文件
存储
在
亚马逊网络服务
s3
中
。下面是我
的
S3
文件
路径结构:在此结构
中
,
将
每天生成
s3
文件
路径
的
日期部分。现在我想
使用
AWS
浏览 1
提问于2019-09-19
得票数 0
1
回答
AWS
Glue
Crawler
在
S3
上出现1100万个
文件
失败
amazon-web-services
、
aws-glue
在
S3
中
获得了11个
S3
json
文件
。
JSON
文件
详细信息:ERROR : Internal Service Exception
在
处理那些巨大
的
文件
时
浏览 0
提问于2018-06-10
得票数 5
1
回答
如何
使用
AWS
glue
将
模式或处理过
的
嵌套
json
文件
压缩(Gzip)
存储
在
s3
中
?
json
、
compression
、
aws-glue
、
amazon-athena
如何
使用
AWS
glue
将
模式或处理过
的
嵌套
json
文件
压缩(Gzip)
存储
在
s3
中
?我想获得嵌套
的
json
压缩(gzip)
文件
的
模式,
使用
aws
glue
或任何其他工具
存储
在
s3
中
,然后
在
雅典娜中<em
浏览 0
提问于2020-04-16
得票数 0
1
回答
如何
从
S3
存储
桶
中
读取上次修改
的
csv
文件
?
csv
、
amazon-s3
、
pyspark
、
pyspark-sql
、
aws-glue
我来找你,看看你是否有一个专业
的
技巧,
将
胶水作业生成
的
最新
csv
文件
加载到
S3
存储
桶
中
,以便加载到jupyter笔记本
中
。 我
使用
此命令从
S3
文件
夹加载我
的
csv
。是否有选项仅选择具有上次修改
的
csv
文件
的
文件
?df = sqlContext.read.<e
浏览 10
提问于2019-11-05
得票数 0
回答已采纳
1
回答
如何
使用
glue
将
存储
在
s3
中
的
json
文件
转
换为
csv
?
amazon-web-services
、
amazon-s3
、
aws-glue
我有一些
json
文件
存储
在
s3
中
,我需要将它们转
换为
csv
格式。 目前我正在
使用
glue
将它们映射到雅典娜,但是,正如我所说
的
,现在我需要将它们映射到
csv
。有没有可能
使用
Glue
作业来做到这一点? 我试图了解粘合作业是否可以爬行到我
的
s3
文件
夹目录
中
,
将
找
浏览 11
提问于2019-05-22
得票数 1
4
回答
AWS
GLUE
数据导入问题
amazon-web-services
、
aws-glue
这里有一个excel
文件
testFile.xlsx,如下所示:1 Montgomery County Muni Utility Dist No.39 TXWaterloo CUSD 5 IL5 Berea City SD OH现在我想将数据导入到AWS
GLUE
数据库
中
,AWS
GLUE
中
的
爬虫已经创建,运行爬虫后AWS
G
浏览 1
提问于2017-11-29
得票数 2
1
回答
Prem Large Table迁移至Redshift AWS
Glue
amazon-web-services
、
connection-timeout
、
aws-glue
我有下面的脚本来移动不同大小
的
表
中
的
所有列,9000万到2.5亿条记录,从本地Oracle数据库到AWS Redshift。该脚本还附加了几个给定
的
审计列:add_metadata6 = add_metadata5.withColumn('eff_data_d
浏览 12
提问于2018-09-20
得票数 0
1
回答
为什么
Glue
Databrew作业
在
将
输出
转
储到
S3
时会编写空
的
CSV
文件
?
amazon-web-services
、
aws-glue
当我
的
工作输出保存在
S3
中
时,它似乎将它们分成几个非常小
的
CSV
文件
,但其中一些
文件
是0。 澄清一下:这是由一个作业执行所产生
的
输出。我已经将作业配置为
在
S3
中
将
结果编写为
CSV
。
Glue
Databrew出于某种原因
将
输出
转
储到几个
CSV
中
,这是好
的
,,但
浏览 1
提问于2021-05-11
得票数 2
1
回答
如何
在aws
Glue
中将
json
写回
s3
?
python-3.x
、
pyspark
、
aws-glue
我是aws-
glue
的
新手。我正在尝试读取
csv
并转
换为
json
对象。正如我所看到
的
,方法是通过爬虫读取
csv
并转
换为
Pyspark DF,然后转
换为
json
对象。到目前为止,我已经转换成了
json
对象。现在我需要将这些
json
写回
s3
存储
桶
中
?= GlueContext(spark_context) session = <em
浏览 18
提问于2020-04-08
得票数 1
回答已采纳
1
回答
如何
使用
python触发aws lambda
的
胶水作业?
python
、
aws-lambda
、
aws-glue
假设我有一个名为: FirstGlueJob
的
胶水作业
如何
使用
python
中
的
lambda函数触发它?
浏览 1
提问于2020-05-20
得票数 0
回答已采纳
1
回答
AWS胶水是
如何
工作
的
?
amazon-web-services
、
aws-glue
、
aws-glue-spark
我
在
AWS
Glue
上以ETL
的
形式阅读了很多帖子。但我不能得到太多。有人能用简单
的
语言解释一下AWS
Glue
是
如何
工作
的
吗?它创建了弹性网卡,但它有什么用呢?我在某处读到AWS胶水作业
在
AWS胶水私有子网内运行,是真的吗?你能用架构图解释一下吗?另外,为什么我们
在
创建胶水连接时需要提供VPC?
浏览 69
提问于2020-09-21
得票数 4
2
回答
如何
在AWS Athena
中
通过
Glue
查询嵌套
的
XML
文件
amazon-web-services
、
pyspark
、
etl
、
amazon-athena
、
aws-glue
我希望嵌套
的
XML
文件
使用
AWS
glue
从AWS Athena查询。我认为我们必须在ETL工作
中
做一些修改。如果有其他信息,请让我知道。
浏览 1
提问于2019-03-22
得票数 1
1
回答
带有SQL数据
的
AWS
存储
网关
amazon-web-services
、
amazon-s3
、
aws-storage-gateway
我正在查看AWS服务
存储
网关。
在
AWS方面,我们可以用
S3
、EBs等
存储
数据。对于我
的
特定场景--假设我有十几个MS SQL Server表,我想备份到AWS。我并不需要经常访问这些数据,但是可能需要偶尔查询一下。
存储
网关是正确
的
方法吗?我知道,如果我用
S3
存储
数据,我可以运行AWS,它可以对我
浏览 3
提问于2020-11-29
得票数 0
回答已采纳
1
回答
使用
星星之火从胶目录
中
读取,而不
使用
动态框架(胶水上下文)
amazon-web-services
、
apache-spark
、
aws-glue
、
aws-glue-data-catalog
、
aws-glue-spark
由于我们
的
方案是常量
的
,所以我们
使用
的
是spark.read(),这比
在
s3
中
存储
数据时从选项创建动态框架要快得多 所以现在想要
使用
动态框架从胶水目录
中
读取数据需要很多时间,所以想要
使用
spark Dataframe.read.format
浏览 1
提问于2021-04-12
得票数 3
1
回答
在
AWS
中
运行Python ETL代码
的
最佳选项
python-3.x
、
amazon-s3
、
aws-lambda
、
aws-glue
、
aws-batch
我正在寻找关于
使用
哪种AWS服务(或其组合)
在
Python
中
执行ETL代码以转换基于文本
的
文件
的
建议: 代码/过程说明: 1. Python代码
将
输入
的
文本
文件
从自定义供应商格式转
换为
CSV
格式。2.单次Python代码调用可以转换单个
文件
,并且可以根据输入
文件
的
大小(从KB到100s MB)
在
1分钟到10分钟或更长<
浏览 4
提问于2020-03-04
得票数 0
1
回答
如何
合并
S3
存储
桶
中
的
CSV
文件
并
使用
AWS
Glue
将其保存回
S3
amazon-web-services
、
amazon-s3
、
aws-glue
、
aws-glue-data-catalog
、
aws-glue-spark
目标是
使用
胶水
将
数据(
csv
文件
)从一个
S3
存储
桶转换到另一个
S3
存储
桶。我创建了一个
CSV
分类器。我创建了一个爬虫来扫描
S3
存储
桶
中
的
数据。我被卡住
的
地方: 如果不将输出保存到任何关系数据库服务或其他数据库服务
中
,则无法找到
如何
将
输出再次
存储
在<
浏览 1
提问于2020-09-10
得票数 0
1
回答
通过spark dataframe读取
S3
文件
时,粘合书签不起作用
amazon-web-services
、
amazon-s3
、
pyspark
、
aws-glue
我有一个
存储
.gz
文件
(
json
格式)
的
S3
存储
桶。每小时将有更多
的
文件
发送到此
存储
桶。我想
使用
Glue
增量地(每天)从
S3
存储
桶
中
读取数据,
将
.gz转
换为
拼接,然后写回另一个
S3
存储
桶。我想我可以
使用
Glue
书签来完成增量
文件</
浏览 24
提问于2020-12-30
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
csv格式文件如何转换成excel文件
Python读取JSON键值对并导出为.csv表格
Python按需提取JSON文件数据并保存为Excel表格
Python笔记-数据加载、存储与文件格式(2)
五种使用python储存数据的方式
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券