腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(400)
视频
沙龙
1
回答
如
何为
raw
区内
的
所有
表
执行
Glue
ETL
作业
(
从
我
的
raw
区
转
换到
parquet
以
进行
处理
)?
amazon-web-services
、
amazon-s3
、
aws-lambda
、
aws-glue
我
有一个S3事件(
所有
对象创建事件),它会触发一个lambda函数来爬行
我
的
原始专区。
我
能够成功地看到每一张桌子。完成后,
我
想创建一个
ETL
作业
,将
处理
区域中
的
数据转换为拼花,但是考虑到我拥有的
表
的
数量,
我
不想手动创建一个
作业
,将每个
表
指定为“源”。
我
演示了
我
的
自动化服务,将
浏览 20
提问于2019-05-09
得票数 0
回答已采纳
1
回答
数据湖亚马逊无服务器亚马逊S3
node.js
、
amazon-s3
、
aws-lambda
、
aws-glue
我
试图使用亚马逊简单存储服务(Amazon S3)作为主要数据存储来构建一个无服务器数据湖。被摄取
的
数据落入亚马逊S3存储桶中,我们称之为原始
区
。要使该数据可用,
我
必须在AWS
Glue
数据目录中对其架构
进行
编目。
我
使用Amazon S3触发器调用
的
AWS Lambda函数来启动对数据
进行
编目的AWS
Glue
爬虫。此步骤启动AWS
Glue
ETL
作业
,<em
浏览 1
提问于2019-10-04
得票数 0
6
回答
我们是否可以考虑AWS胶作为电子病历
的
替代品?
amazon-web-services
、
etl
、
amazon-emr
、
aws-glue
仅仅是一个简单
的
问题来澄清,因为AWS
Glue
作为一种
ETL
工具,可以为公司提供一些好处,例如,很少或没有服务器维护,通过避免过度供应或配置不足
的
资源来节省成本,除了在星星之火上运行之外,
我
还想寻求一些澄清,如果AWS
Glue
可以取代EMR?
浏览 0
提问于2018-01-12
得票数 21
回答已采纳
1
回答
如何在
Glue
脚本中
从
元数据中检索数据创建
表
amazon-web-services
、
aws-glue
在AWS
Glue
中,虽然
我
读过文档,但是
我
一件事都没有被清除。下面是
我
所理解
的
。 关于Crawler:这将为S3或DynamoDB
表
创建一个元数据
表
。但我不明白
的
是: Scala/Python如何能够使用元数据创建
的
表
从实际来源(比如DynamoDB or S3)检索数据。getCatalogSource(database = "my_data_base", tableName = &
浏览 2
提问于2020-08-21
得票数 0
回答已采纳
1
回答
AWS雅典娜查询分区
amazon-web-services
、
amazon-s3
、
amazon-athena
、
amazon-kinesis-firehose
我
试图使用为现有的平台提供分析。当前
的
流如下所示: 基本流程起作用。不过,这有几个问题.第一个(也是最重要
的
)是,这些数据是多租户
浏览 0
提问于2019-04-26
得票数 1
回答已采纳
2
回答
查询性能帮助
sql
、
sql-server
、
sql-server-2005
、
performance
我
有一项长期
的
工作。要
处理
的
记录在一个
表
中,其中包含大约100K条记录。 现在,在整个
作业
期间,每当查询此
表
时,它都会查询这100K条记录。
处理
后,针对同一
表
更新每条记录
的
状态。
我
想知道,如果
我
添加另一个可以更新记录状态
的
表
,并在这个
表
中继续删除正在
处理
的
任何记录,这样当查询前进到no时,是否
浏览 3
提问于2009-11-13
得票数 1
回答已采纳
3
回答
在Athena CTAS上创建100多个分区
的
替代方案
amazon-web-services
、
amazon-s3
、
amazon-athena
我
目前正在根据存储在亚马逊S3中
的
信息创建一些新
表
。第一次使用AWS,今天
我
了解到Amazon不能通过CTAS查询创建超过100个分区。
我
正在使用sql
进行
转换,它工作得很好,但需要一种方法一次存储100多个分区,以使过程更加可靠。
我
将分区设置为日期,因此在4个月内,如果需要重新创建
表
以
通过sql加载大量数据(其中有转换),
我
的
流程将失败。 知道
我
怎么能做到这一点吗?
浏览 10
提问于2019-10-25
得票数 1
回答已采纳
5
回答
AWS胶水书签
amazon-web-services
、
pyspark
、
parquet
、
aws-glue
如何验证
我
的
书签是否正常工作?
我
发现,当我在上一次完成后立即运行一个
作业
时,似乎仍然需要很长时间。为什么会这样呢?
我
以为它不会读取它已经
处理
过
的
文件?write \ .partitionBy(["querydestinationplace", "querydatetime"]) \ .
parquet
("s3:
浏览 0
提问于2018-12-11
得票数 5
3
回答
Apache :使用结构化数据好吗?
mysql
、
apache-spark
、
hdfs
、
distributed-computing
、
bigdata
有一个查询,
我
在Mysql中有两个更大
的
表
A (40 GB)和B(70 GB),
我
经常需要从这两个
表
中连接。
我
不使用查询中
的
联接,因为它从不返回结果。请考虑
所有
表
都有很好
的
索引。
我
从
表
A中提取数据,与使用这些数据相比,
我
在
表
B中找到了大量匹配
的
记录。
我
进一步
处理
这些合并<em
浏览 6
提问于2016-09-04
得票数 1
回答已采纳
2
回答
XSL -嵌入式查找
表
-查找变量
的
值
xml
、
xslt
、
lookup
、
lookup-tables
StackExchange,
我
希望这里有人能帮我解决这个问题!<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XS
浏览 3
提问于2016-02-10
得票数 3
回答已采纳
2
回答
BigQuery数据转换
的
最佳方法
google-bigquery
、
etl
、
google-cloud-dataflow
我
已经在BigQuery上存储了数兆字节
的
数据,
我
想要在它上
执行
大量
的
数据转换。 对如何
处理
这件事有什么想法吗?
浏览 7
提问于2020-01-08
得票数 0
回答已采纳
1
回答
AWS
Glue
:如何使用不同模式
的
ETL
非标量JSON
amazon-web-services
、
amazon-s3
、
amazon-dynamodb
、
aws-glue
、
amazon-redshift-spectrum
但是,虽然模式不同,但
所有
文件都包含一些公共元素,
如
“id”或“name”,以及不同长度
的
嵌套数组,例如“选定项”。
我
希望能够在闲暇
的
时候解析出这些元素。
我
有一种使用外部
ETL
工具(K尼姆)
的
工作方法,
我
希望通过
Glue
以
一种无服务器
的
方式复制它。通过数组索引
的
规范所需
的
json数组
执行
所需
的
表<
浏览 0
提问于2018-06-26
得票数 0
3
回答
我
想把数据
从
excel表格导入到informatica,最后插入到DB
表
中
excel
、
informatica
、
informatica-powercenter
、
informatica-cloud
、
informatica-powerexchange
我
想把数据
从
excel表格导入到informatica中,最后插入到DB
表
中。excel中
的
数据为key:value格式(例如名称:"xyz“(在右边
的
单元格中))如何导入该数据,使" name”成为列名,“xyz”成为informatica源中
的
数据?
浏览 34
提问于2020-03-03
得票数 1
5
回答
ELT数据是否
以
RDBMS结束?
etl
我
想我把事情搞糊涂了。在ELT中,除了数据库A
的
数据永远不会在数据库B中结束之外,这是一样
的
吗?相反,原始数据位于数据库A服务器B上
的
表
或其他数据结构
浏览 0
提问于2017-10-12
得票数 1
回答已采纳
1
回答
j2me -如何使用RMS存储自定义对象
java-me
、
rms
RecordStores (客户、产品和价格),对于每个用户,
我
按照上面所示
进行
保存,
以
保存相应
的
数据。
我
知道这可能是一个解决方案,但我相信一定会有一个更好
的
实现。更重要
的
是,考虑到这三个“
表
”,
我
将
执行
搜索、排序等操作。
我
真的很感
浏览 2
提问于2014-06-22
得票数 1
回答已采纳
14
回答
覆盖火花数据写入方法中
的
特定分区
apache-spark
、
apache-spark-sql
我
想要覆盖特定
的
分区,而不是在火花中
的
所有
分区。
我
正在尝试以下命令:其中df是dataframe,具有要覆盖
的
增量数据当我尝试上述命令时,它将删除
所有
分区,并在hdfs路径上插入df中
的
分区。
我
<em
浏览 62
提问于2016-07-20
得票数 101
回答已采纳
3
回答
每天更新云中20-30亿行数据集中
的
1亿行
amazon-web-services
、
bigdata
这是一个和时间一样古老
的
故事。企业希望获取数十亿行(20-30亿),将它们
从
Oracle流式传输到云(在我们
的
案例中是AWS)。到目前一切尚好。然后他们想要在云中
处理
它们,在这里仍然可以。然后,他们希望每天更新大约5%(称为1.25亿)
的
行
的
子集,并再次
处理
数据。
我
不是说这是不合理
的
,
我
只是不确定解决这个问题
的
最有效
的
方法。对于一些背景,
我
是一名高级全栈开发人员
浏览 13
提问于2021-10-22
得票数 0
6
回答
红移中
的
尺寸建模与
ETL
etl
、
dimensional-modeling
、
redshift
我
一直在研究亚马逊
的
Redshift数据库,作为我们数据仓库未来可能
的
替代品。
我
的
经验一直是使用多维建模和拉尔夫·金博尔
的
方法,所以看到Redshift不支持诸如用于自动递增列
的
串行数据类型这样
的
特性有点奇怪。
我
的
问题是,在Redshift中加载星型模式
的
最佳实践是什么?
我
在Redshift
的
任何文档中都找不到这个答案。
我
倾向于将我
的<
浏览 0
提问于2015-06-05
得票数 9
2
回答
只有单个线程使用多
处理
池使用PySpark
执行
并行SQL查询。
python
、
multithreading
、
apache-spark
、
pyspark
、
netsuite
理想情况下,
我
希望拥有计算集群中
的
每个任务节点:获取
表
的
名称,
从
数据库中查询该
表
,并将该
表
保存为S3中
的
Parquet
文件(或一组
Parquet
文件)。
我
的
第一步是让它在本地
以
独立模式工作。(如果
我
对每个给定
表
都有一个主键,那么
我
可以将查询和文件保存过程划分为给定
表
的
不同行集
浏览 0
提问于2018-11-21
得票数 2
回答已采纳
2
回答
火花SQL
从
原始文本到
Parquet
:没有性能提升
scala
、
apache-spark
、
hive
、
parquet
、
snappy
设想如下:为了提高性能,
我
想在
执行
进程之前,
以
一种更有效
的
格式(
如
SparkSQL )来转换
表
。根据文档和在线讨论,这将大大
浏览 1
提问于2018-07-28
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Uber使用Apache Hudi构建了一个大规模事务型数据湖
数据仓库项目中的数据建模和ETL日志体系
metasploit(MSF)终端命令大全
Spark SQL,DataFrames 以及 Datasets 编程指南
使用连续数据数据变化捕获技术增强您的ELT/ETL解决方案
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券