如何为raw区内的所有表执行Glue ETL作业(从我的raw区转换到parquet以进行处理)？

amazon-web-services、amazon-s3、aws-lambda、aws-glue

我有一个S3事件(所有对象创建事件)，它会触发一个lambda函数来爬行我的原始专区。我能够成功地看到每一张桌子。完成后，我想创建一个ETL作业，将处理区域中的数据转换为拼花，但是考虑到我拥有的表的数量，我不想手动创建一个作业，将每个表指定为“源”。我演示了我的自动化服务，将

浏览 20提问于2019-05-09得票数 0

回答已采纳

1回答

数据湖亚马逊无服务器亚马逊S3

node.js、amazon-s3、aws-lambda、aws-glue

我试图使用亚马逊简单存储服务(Amazon S3)作为主要数据存储来构建一个无服务器数据湖。被摄取的数据落入亚马逊S3存储桶中，我们称之为原始区。要使该数据可用，我必须在AWS Glue数据目录中对其架构进行编目。我使用Amazon S3触发器调用的AWS Lambda函数来启动对数据进行编目的AWS Glue爬虫。此步骤启动AWS Glue ETL作业，<em

浏览 1提问于2019-10-04得票数 0

6回答

我们是否可以考虑AWS胶作为电子病历的替代品？

amazon-web-services、etl、amazon-emr、aws-glue

仅仅是一个简单的问题来澄清，因为AWS Glue作为一种ETL工具，可以为公司提供一些好处，例如，很少或没有服务器维护，通过避免过度供应或配置不足的资源来节省成本，除了在星星之火上运行之外，我还想寻求一些澄清，如果AWS Glue可以取代EMR？

浏览 0提问于2018-01-12得票数 21

回答已采纳

1回答

如何在Glue脚本中从元数据中检索数据创建表

amazon-web-services、aws-glue

在AWS Glue中，虽然我读过文档，但是我一件事都没有被清除。下面是我所理解的。关于Crawler:这将为S3或DynamoDB表创建一个元数据表。但我不明白的是: Scala/Python如何能够使用元数据创建的表从实际来源(比如DynamoDB or S3)检索数据。getCatalogSource(database = "my_data_base", tableName = &

浏览 2提问于2020-08-21得票数 0

回答已采纳

1回答

AWS雅典娜查询分区

amazon-web-services、amazon-s3、amazon-athena、amazon-kinesis-firehose

我试图使用为现有的平台提供分析。当前的流如下所示：基本流程起作用。不过，这有几个问题.第一个(也是最重要的)是，这些数据是多租户

浏览 0提问于2019-04-26得票数 1

回答已采纳

2回答

查询性能帮助

sql、sql-server、sql-server-2005、performance

我有一项长期的工作。要处理的记录在一个表中，其中包含大约100K条记录。现在，在整个作业期间，每当查询此表时，它都会查询这100K条记录。处理后，针对同一表更新每条记录的状态。我想知道，如果我添加另一个可以更新记录状态的表，并在这个表中继续删除正在处理的任何记录，这样当查询前进到no时，是否

浏览 3提问于2009-11-13得票数 1

回答已采纳

3回答

在Athena CTAS上创建100多个分区的替代方案

amazon-web-services、amazon-s3、amazon-athena

我目前正在根据存储在亚马逊S3中的信息创建一些新表。第一次使用AWS，今天我了解到Amazon不能通过CTAS查询创建超过100个分区。我正在使用sql进行转换，它工作得很好，但需要一种方法一次存储100多个分区，以使过程更加可靠。我将分区设置为日期，因此在4个月内，如果需要重新创建表以通过sql加载大量数据(其中有转换)，我的流程将失败。知道我怎么能做到这一点吗？

浏览 10提问于2019-10-25得票数 1

回答已采纳

5回答

AWS胶水书签

amazon-web-services、pyspark、parquet、aws-glue

如何验证我的书签是否正常工作？我发现，当我在上一次完成后立即运行一个作业时，似乎仍然需要很长时间。为什么会这样呢？我以为它不会读取它已经处理过的文件？write \ .partitionBy(["querydestinationplace", "querydatetime"]) \ .parquet("s3:&#

浏览 0提问于2018-12-11得票数 5

3回答

Apache :使用结构化数据好吗？

mysql、apache-spark、hdfs、distributed-computing、bigdata

有一个查询，我在Mysql中有两个更大的表A (40 GB)和B(70 GB)，我经常需要从这两个表中连接。我不使用查询中的联接，因为它从不返回结果。请考虑所有表都有很好的索引。我从表A中提取数据，与使用这些数据相比，我在表B中找到了大量匹配的记录。我进一步处理这些合并<em

浏览 6提问于2016-09-04得票数 1

回答已采纳

2回答

XSL -嵌入式查找表-查找变量的值

xml、xslt、lookup、lookup-tables

StackExchange，我希望这里有人能帮我解决这个问题！<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XS

浏览 3提问于2016-02-10得票数 3

回答已采纳

2回答

BigQuery数据转换的最佳方法

google-bigquery、etl、google-cloud-dataflow

我已经在BigQuery上存储了数兆字节的数据，我想要在它上执行大量的数据转换。对如何处理这件事有什么想法吗？

浏览 7提问于2020-01-08得票数 0

回答已采纳

1回答

AWS Glue:如何使用不同模式的ETL非标量JSON

amazon-web-services、amazon-s3、amazon-dynamodb、aws-glue、amazon-redshift-spectrum

但是，虽然模式不同，但所有文件都包含一些公共元素，如“id”或“name”，以及不同长度的嵌套数组，例如“选定项”。我希望能够在闲暇的时候解析出这些元素。我有一种使用外部ETL工具(K尼姆)的工作方法，我希望通过Glue以一种无服务器的方式复制它。通过数组索引的规范所需的json数组执行所需的表<

浏览 0提问于2018-06-26得票数 0

3回答

我想把数据从excel表格导入到informatica，最后插入到DB表中

excel、informatica、informatica-powercenter、informatica-cloud、informatica-powerexchange

我想把数据从excel表格导入到informatica中，最后插入到DB表中。excel中的数据为key:value格式(例如名称："xyz“(在右边的单元格中))如何导入该数据，使" name”成为列名，“xyz”成为informatica源中的数据？

浏览 34提问于2020-03-03得票数 1

5回答

ELT数据是否以RDBMS结束？

etl

我想我把事情搞糊涂了。在ELT中，除了数据库A的数据永远不会在数据库B中结束之外，这是一样的吗？相反，原始数据位于数据库A服务器B上的表或其他数据结构

浏览 0提问于2017-10-12得票数 1

回答已采纳

1回答

j2me -如何使用RMS存储自定义对象

java-me、rms

RecordStores (客户、产品和价格)，对于每个用户，我按照上面所示进行保存，以保存相应的数据。我知道这可能是一个解决方案，但我相信一定会有一个更好的实现。更重要的是，考虑到这三个“表”，我将执行搜索、排序等操作。我真的很感

浏览 2提问于2014-06-22得票数 1

回答已采纳

14回答

覆盖火花数据写入方法中的特定分区

apache-spark、apache-spark-sql

我想要覆盖特定的分区，而不是在火花中的所有分区。我正在尝试以下命令：其中df是dataframe，具有要覆盖的增量数据当我尝试上述命令时，它将删除所有分区，并在hdfs路径上插入df中的分区。我<em

浏览 62提问于2016-07-20得票数 101

回答已采纳

3回答

每天更新云中20-30亿行数据集中的1亿行

amazon-web-services、bigdata

这是一个和时间一样古老的故事。企业希望获取数十亿行(20-30亿)，将它们从Oracle流式传输到云(在我们的案例中是AWS)。到目前一切尚好。然后他们想要在云中处理它们，在这里仍然可以。然后，他们希望每天更新大约5%(称为1.25亿)的行的子集，并再次处理数据。我不是说这是不合理的，我只是不确定解决这个问题的最有效的方法。对于一些背景，我是一名高级全栈开发人员

浏览 13提问于2021-10-22得票数 0

6回答

红移中的尺寸建模与ETL

etl、dimensional-modeling、redshift

我一直在研究亚马逊的Redshift数据库，作为我们数据仓库未来可能的替代品。我的经验一直是使用多维建模和拉尔夫·金博尔的方法，所以看到Redshift不支持诸如用于自动递增列的串行数据类型这样的特性有点奇怪。我的问题是，在Redshift中加载星型模式的最佳实践是什么？我在Redshift的任何文档中都找不到这个答案。我倾向于将我的<

浏览 0提问于2015-06-05得票数 9

2回答

只有单个线程使用多处理池使用PySpark执行并行SQL查询。

python、multithreading、apache-spark、pyspark、netsuite

理想情况下，我希望拥有计算集群中的每个任务节点:获取表的名称，从数据库中查询该表，并将该表保存为S3中的Parquet文件(或一组Parquet文件)。我的第一步是让它在本地以独立模式工作。(如果我对每个给定表都有一个主键，那么我可以将查询和文件保存过程划分为给定表的不同行集

浏览 0提问于2018-11-21得票数 2

回答已采纳

2回答

火花SQL从原始文本到Parquet:没有性能提升

scala、apache-spark、hive、parquet、snappy

设想如下：为了提高性能，我想在执行进程之前，以一种更有效的格式(如SparkSQL )来转换表。根据文档和在线讨论，这将大大

浏览 1提问于2018-07-28得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

数据湖亚马逊无服务器亚马逊S3

我们是否可以考虑AWS胶作为电子病历的替代品？

如何在Glue脚本中从元数据中检索数据创建表

AWS雅典娜查询分区

查询性能帮助

在Athena CTAS上创建100多个分区的替代方案

AWS胶水书签

Apache :使用结构化数据好吗？

XSL -嵌入式查找表-查找变量的值

BigQuery数据转换的最佳方法

AWS Glue:如何使用不同模式的ETL非标量JSON

我想把数据从excel表格导入到informatica，最后插入到DB表中

ELT数据是否以RDBMS结束？

j2me -如何使用RMS存储自定义对象

覆盖火花数据写入方法中的特定分区

每天更新云中20-30亿行数据集中的1亿行

红移中的尺寸建模与ETL

只有单个线程使用多处理池使用PySpark执行并行SQL查询。

火花SQL从原始文本到Parquet:没有性能提升

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐