如何减少胶水etl作业(Spark)实际开始执行所需的时间？

、、

我想开始一个胶水etl作业，虽然执行是公平的(时间问题)，但是，胶水实际开始执行作业所需的时间太长了。我查阅了各种文档和答案，但没有一个能给我提供解决方案。我希望尽快完成这项工作，有时需要10分钟左右才能启动一个在2分钟内执行的作业。

浏览 23提问于2019-04-08得票数 0

2回答

有没有办法在AWS glue上使用Apache Hudi？

、、、

尝试探索使用S3作为源进行增量加载的apach hudi，然后通过AWS glue job将输出保存到S3中的不同位置。作为起点，有没有什么博客/文章可以帮助我们呢？

浏览 30提问于2021-04-28得票数 1

2回答

如何自动化ETL作业的部署和运行？

、、、、

我们有ETL作业，即java jar(执行etl操作)是通过shell脚本运行的。根据正在运行的作业，使用一些参数传递shell脚本。我们如何自动化这个过程？如何部署和处理传递自定义参数等。欢迎使用指针。

浏览 5提问于2018-06-28得票数 2

2回答

使用JSON输入替换AWS步骤函数中的'Variable‘

、

我有一个AWS步骤函数，我想通过开始执行时包含的JSON输入传递一个值给它。Step函数启动一个ETL作业，并通过调用执行上述任务的Lambda函数来检查其状态。我想要传递的值是名为'regionalCenters‘的胶水作业的参数，在本例中，所需的值将是'LA’。如下所示，我曾尝试使用$.value语法从JSON输入传递，但

浏览 15提问于2019-04-30得票数 0

回答已采纳

6回答

我们是否可以考虑AWS胶作为电子病历的替代品？

、、、

仅仅是一个简单的问题来澄清，因为AWS Glue作为一种ETL工具，可以为公司提供一些好处，例如，很少或没有服务器维护，通过避免过度供应或配置不足的资源来节省成本，除了在星星之火上运行之外，我还想寻求一些澄清如果两者都能共存，那么EMR如何与AWS胶一起发挥作用？尤瓦

浏览 0提问于2018-01-12得票数 21

回答已采纳

2回答

AWS Glue完成后，如何执行SQL脚本或存储过程？

、、、、

对于传统的ETL，常见的模式是从目标表中查找主键，以决定是否需要进行更新或插入(也就是重新插入设计模式)。使用胶水，似乎没有相同的控制。简单地写出动态框架只是一个插入过程。我可以想出两种设计模式来解决这个问题：将数据加载到阶段表中，然后使用SQL执行最后的</

浏览 0提问于2019-04-01得票数 2

回答已采纳

1回答

星星之火和地图--一起减少

、、、

在运行地图裁减作业的集群上运行Spark的最佳方法是什么？如果我保持星火应用程序正常运行，那么执行

浏览 1提问于2016-02-19得票数 1

回答已采纳

4回答

ETL批处理

、

我正在寻找一些开源技术，可以让我创建预定的批处理(例如，每1小时查询一些SQL数据库，如Oracle，并插入到Kafka。可能会对之间的数据进行一些转换)。例如，我读过关于Apache Airflow的文章，但它似乎不适合大数据量。我还可以使用哪些其他技术来实现此目的？

浏览 2提问于2019-11-12得票数 3

1回答

S3异常“请降低请求速率”导致的AWS“未能删除键:目标_文件夹/临时”

、、

胶水作业配置为最大10个节点容量，一个并行作业，失败时没有重试都会出现“未能删除键:目标_文件夹/_临时”的错误，根据堆栈跟踪，问题是S3服务由于请求的数量而开始阻塞Glue请求："AmazonS3Exception“我在GitHub上找到了一个关于这个问题的建议，并提出了

浏览 7提问于2020-01-14得票数 2

回答已采纳

4回答

AWS胶ETL作业和AWS EMR有什么区别？

、、、、

如果我必须在存储在S3中作为csv文件存储的大型数据集(例如1Tb)上执行ETL，则可以使用AWS作业和AWS步骤。那么AWS胶与AWS EMR有何不同？在这种情况下，哪个是更好的解决方案。

浏览 3提问于2020-06-07得票数 4

回答已采纳

4回答

我考虑了6个DPU (4个vCPU+ 16 GB内存)，ETL作业在30天内运行10分钟。假设预期的爬网程序请求数高于空闲层100万次，对于额外的100万次请求计算为$1。在电子病历上，我考虑了EC2和电子病历的m3.xlarge (价格分别为0.266美元和0.070美元)，有6个节点，运行10分钟，30天。经过一个月的计算，我发现AWS Glue的价格约为14.64美元，而EMR的价格约为10.08美元。我还没有考虑其他额外的费用

浏览 104提问于2018-02-07得票数 17

回答已采纳

1回答

oracle select语句的sleep函数

、、

我有一个复杂的ETL作业，它在运行时大部分时间都挂起(通常在高峰时间，非高峰时间它在10分钟内运行)。由于ETL作业很复杂，重新设计需要时间。有没有什么办法可以让一些查询开始得晚一些(比如睡眠)。ETL将一次性触发

浏览 0提问于2020-04-19得票数 1

1回答

对DataFrame进行分区时，AWS胶水火花作业不能扩展

、

我正在开发一个胶水火花作业脚本使用胶水开发端点，其中有4个DPU分配。根据Glue 的说法，1DPU相当于2个执行器，每个执行器可以运行4个任务。1个DPU预留给主设备，1个执行器预留给驱动程序。现在，当我的开发端点有4个DPU时，我希望有5个执行器和20个任务。我正在开发的脚本使用JDBC连接加载一百万行。然后，我将分区数更改为10，作业再次运行34秒。那么，如果我有20个可用的</em

浏览 17提问于2020-05-08得票数 0

2回答

AWS胶与EMR Serverless

、、、

最近，AWS发布了Amazon (预览版) --一种非常有前途的新服务。潜在的ecosystem，甚至可能是AWS胶水生态系统的一部分，用于转换层？也许AWS将用EMR取代AWS Glue中的转换层，这样可能是有意义的。AWS胶将扮演ETL覆盖、

浏览 16提问于2021-12-12得票数 8

1回答

如何减少谷歌数据流作业的初始化和终止时间？

、、、

我目前正在研究POC，并主要关注ETL处理的数据流。我使用Dataflow 2.1JavaBeamAPI创建了管道，初始化只需3-4分钟，每次运行也需要1-2分钟。但是，实际转换(ParDo)所需时间不到一分钟。而且，我试着用不同的方法来运行这些作业，但看起来，所有上述方法在初始化和终止过程中消耗的

浏览 0提问于2017-10-12得票数 4

1回答

Pentaho大源表处理到目标表相同模式

、、、

我目前有一个etl作业，读取超过一百万条记录的源表，然后按顺序处理到目标表。源和目标都在相同的模式中，但是在这两者之间有一个外部rest端点调用来发布来自源表的一些数据，这个作业现在执行得非常糟糕，有人可以告诉我在如何并行化这个或减少fetchsize等方面有什么方法来提高性能来减少这个作业的运行时间吗

浏览 22提问于2020-01-10得票数 0

2回答

跨多个Spark作业重用Spark会话

、、

我有大约10个Spark作业，每个作业都会做一些转换并将数据加载到数据库中。Spark会话必须为每个作业单独打开并关闭，每次初始化都会耗费时间。是否可以只创建一次Spark会话，并在多个作业中重复使用该会话？

浏览 32提问于2019-04-15得票数 2

1回答

Apache Spark/AWS EMR和处理文件的跟踪

、、

我有一个AWS S3文件夹，其中存储了大量的JSON文件。我需要ETL这些文件与AWS EMR通过星火和存储转换为AWS RDS。外部逻辑有时可以向AWS S3文件夹中添加一个新文件，因此下次当我的火花作业开始时，我只想处理新的(未处理的) JSON文件。现在，我不知道在哪里存储有关已处理的JSON文件的

浏览 0提问于2018-10-15得票数 1

回答已采纳

2回答

将SSIS执行存储到表中

、、

我想知道我们是否有任何标准的方法将所有执行结果转储到一个表中，以跟踪包的状态，而不是将输出输入到屏幕截图中。我已经在我的SSIS包中实现了包日志并执行了它。，我为Server选择了SSIS日志提供程序，并为配置选择了OLEDB连接，选择了要记录的事件。但是，在执行包之后，我不知道该在哪里查找。有谁能告诉我在哪里可以看到保存的结果吗？更清楚的是，我从这个MSDN链接开始

浏览 1提问于2015-07-23得票数 2

回答已采纳

1回答

addition定价--除了DBU成本之外，我们还应该单独支付EC2实例吗？

、、、

我试图对AWS Glue和托管在AWS环境中的Databricks进行一些成本比较。为了进行比较，我选择了m4.xlarge，相当于AWS Glue中的一个DPU (4个vCPU/16 in内存)。根据AWS，我的成本估算如下：数据库成本估算:这给出了每月74美元的估计数我担心的是，除了这7

浏览 8提问于2022-05-12得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

有没有办法在AWS glue上使用Apache Hudi？

如何自动化ETL作业的部署和运行？

使用JSON输入替换AWS步骤函数中的'Variable‘

我们是否可以考虑AWS胶作为电子病历的替代品？

AWS Glue完成后，如何执行SQL脚本或存储过程？

星星之火和地图--一起减少

ETL批处理

S3异常“请降低请求速率”导致的AWS“未能删除键:目标_文件夹/临时”

AWS胶ETL作业和AWS EMR有什么区别？

AWS胶水价格与AWS EMR的对比

oracle select语句的sleep函数

对DataFrame进行分区时，AWS胶水火花作业不能扩展

AWS胶与EMR Serverless

如何减少谷歌数据流作业的初始化和终止时间？

Pentaho大源表处理到目标表相同模式

跨多个Spark作业重用Spark会话

Apache Spark/AWS EMR和处理文件的跟踪

将SSIS执行存储到表中

addition定价--除了DBU成本之外，我们还应该单独支付EC2实例吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐