腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
减少
胶水
etl
作业
(
Spark
)
实际
开始
执行
所需
的
时间
?
、
、
我想
开始
一个
胶水
etl
作业
,虽然
执行
是公平
的
(
时间
问题),但是,
胶水
实际
开始
执行
作业
所需
的
时间
太长了。 我查阅了各种文档和答案,但没有一个能给我提供解决方案。我希望尽快完成这项工作,有时需要10分钟左右才能启动一个在2分钟内
执行
的
作业
。
浏览 23
提问于2019-04-08
得票数 0
2
回答
有没有办法在AWS glue上使用Apache Hudi?
、
、
、
尝试探索使用S3作为源进行增量加载
的
apach hudi,然后通过AWS glue job将输出保存到S3中
的
不同位置。 作为起点,有没有什么博客/文章可以帮助我们呢?
浏览 30
提问于2021-04-28
得票数 1
2
回答
如何
自动化
ETL
作业
的
部署和运行?
、
、
、
、
我们有
ETL
作业
,即java jar(
执行
etl
操作)是通过shell脚本运行
的
。根据正在运行
的
作业
,使用一些参数传递shell脚本。我们
如何
自动化这个过程?
如何
部署和处理传递自定义参数等。欢迎使用指针。
浏览 5
提问于2018-06-28
得票数 2
2
回答
使用JSON输入替换AWS步骤函数中
的
'Variable‘
、
我有一个AWS步骤函数,我想通过
开始
执行
时包含
的
JSON输入传递一个值给它。Step函数启动一个
ETL
作业
,并通过调用
执行
上述任务
的
Lambda函数来检查其状态。我想要传递
的
值是名为'regionalCenters‘
的
胶水
作业
的
参数,在本例中,
所需
的
值将是'LA’。如下所示,我曾尝试使用$.value语法从JSON输入传递,但
浏览 15
提问于2019-04-30
得票数 0
回答已采纳
6
回答
我们是否可以考虑AWS胶作为电子病历
的
替代品?
、
、
、
仅仅是一个简单
的
问题来澄清,因为AWS Glue作为一种
ETL
工具,可以为公司提供一些好处,例如,很少或没有服务器维护,通过避免过度供应或配置不足
的
资源来节省成本,除了在星星之火上运行之外,我还想寻求一些澄清如果两者都能共存,那么EMR
如何
与AWS胶一起发挥作用?尤瓦
浏览 0
提问于2018-01-12
得票数 21
回答已采纳
2
回答
AWS Glue完成后,
如何
执行
SQL脚本或存储过程?
、
、
、
、
对于传统
的
ETL
,常见
的
模式是从目标表中查找主键,以决定是否需要进行更新或插入(也就是重新插入设计模式)。使用
胶水
,似乎没有相同
的
控制。简单地写出动态框架只是一个插入过程。我可以想出两种设计模式来解决这个问题: 将数据加载到阶段表中,然后使用SQL
执行
最后
的</
浏览 0
提问于2019-04-01
得票数 2
回答已采纳
1
回答
星星之火和地图--一起
减少
、
、
、
在运行地图裁减
作业
的
集群上运行
Spark
的
最佳方法是什么?如果我保持星火应用程序正常运行,那么
执行
浏览 1
提问于2016-02-19
得票数 1
回答已采纳
4
回答
ETL
批处理
、
我正在寻找一些开源技术,可以让我创建预定
的
批处理(例如,每1小时查询一些SQL数据库,如Oracle,并插入到Kafka。可能会对之间
的
数据进行一些转换)。例如,我读过关于Apache Airflow
的
文章,但它似乎不适合大数据量。 我还可以使用哪些其他技术来实现此目的?
浏览 2
提问于2019-11-12
得票数 3
1
回答
S3异常“请降低请求速率”导致
的
AWS“未能删除键:目标_文件夹/临时”
、
、
胶水
作业
配置为最大10个节点容量,一个并行
作业
,失败时没有重试都会出现“未能删除键:目标_文件夹/_临时”
的
错误,根据堆栈跟踪,问题是S3服务由于请求
的
数量而
开始
阻塞Glue请求:"AmazonS3Exception“我在GitHub上找到了一个关于这个问题
的
建议,并提出了
浏览 7
提问于2020-01-14
得票数 2
回答已采纳
4
回答
AWS胶
ETL
作业
和AWS EMR有什么区别?
、
、
、
、
如果我必须在存储在S3中作为csv文件存储
的
大型数据集(例如1Tb)上
执行
ETL
,则可以使用AWS
作业
和AWS步骤。那么AWS胶与AWS EMR有何不同?在这种情况下,哪个是更好
的
解决方案。
浏览 3
提问于2020-06-07
得票数 4
回答已采纳
4
回答
AWS
胶水
价格与AWS EMR
的
对比
、
、
、
我考虑了6个DPU (4个vCPU+ 16 GB内存),
ETL
作业
在30天内运行10分钟。假设预期
的
爬网程序请求数高于空闲层100万次,对于额外
的
100万次请求计算为$1。在电子病历上,我考虑了EC2和电子病历
的
m3.xlarge (价格分别为0.266美元和0.070美元),有6个节点,运行10分钟,30天。经过一个月
的
计算,我发现AWS Glue
的
价格约为14.64美元,而EMR
的
价格约为10.08美元。我还没有考虑其他额外
的
费用
浏览 104
提问于2018-02-07
得票数 17
回答已采纳
1
回答
oracle select语句
的
sleep函数
、
、
我有一个复杂
的
ETL
作业
,它在运行时大部分
时间
都挂起(通常在高峰
时间
,非高峰
时间
它在10分钟内运行)。由于
ETL
作业
很复杂,重新设计需要
时间
。有没有什么办法可以让一些查询
开始
得晚一些(比如睡眠)。
ETL
将一次性触发
浏览 0
提问于2020-04-19
得票数 1
1
回答
对DataFrame进行分区时,AWS
胶水
火花
作业
不能扩展
、
我正在开发一个
胶水
火花
作业
脚本使用
胶水
开发端点,其中有4个DPU分配。根据Glue
的
说法,1DPU相当于2个
执行
器,每个
执行
器可以运行4个任务。1个DPU预留给主设备,1个
执行
器预留给驱动程序。现在,当我
的
开发端点有4个DPU时,我希望有5个
执行
器和20个任务。 我正在开发
的
脚本使用JDBC连接加载一百万行。然后,我将分区数更改为10,
作业
再次运行34秒。那么,如果我有20个可用
的</em
浏览 17
提问于2020-05-08
得票数 0
2
回答
AWS胶与EMR Serverless
、
、
、
最近,AWS发布了Amazon (预览版) --一种非常有前途
的
新服务。潜在
的
ecosystem,甚至可能是AWS
胶水
生态系统
的
一部分,用于转换层?也许AWS将用EMR取代AWS Glue中
的
转换层,这样可能是有意义
的
。AWS胶将扮演
ETL
覆盖、
浏览 16
提问于2021-12-12
得票数 8
1
回答
如何
减少
谷歌数据流
作业
的
初始化和终止
时间
?
、
、
、
我目前正在研究POC,并主要关注
ETL
处理
的
数据流。我使用Dataflow 2.1JavaBeamAPI创建了管道,初始化只需3-4分钟,每次运行也需要1-2分钟。但是,
实际
转换(ParDo)
所需
时间
不到一分钟。而且,我试着用不同
的
方法来运行这些
作业
, 但看起来,所有上述方法在初始化和终止过程中消耗
的
浏览 0
提问于2017-10-12
得票数 4
1
回答
Pentaho大源表处理到目标表相同模式
、
、
、
我目前有一个
etl
作业
,读取超过一百万条记录
的
源表,然后按顺序处理到目标表。源和目标都在相同
的
模式中,但是在这两者之间有一个外部rest端点调用来发布来自源表
的
一些数据,这个
作业
现在
执行
得非常糟糕,有人可以告诉我在
如何
并行化这个或
减少
fetchsize等方面有什么方法来提高性能来
减少
这个
作业
的
运行
时间
吗
浏览 22
提问于2020-01-10
得票数 0
2
回答
跨多个
Spark
作业
重用
Spark
会话
、
、
我有大约10个
Spark
作业
,每个
作业
都会做一些转换并将数据加载到数据库中。
Spark
会话必须为每个
作业
单独打开并关闭,每次初始化都会耗费
时间
。是否可以只创建一次
Spark
会话,并在多个
作业
中重复使用该会话?
浏览 32
提问于2019-04-15
得票数 2
1
回答
Apache
Spark
/AWS EMR和处理文件
的
跟踪
、
、
我有一个AWS S3文件夹,其中存储了大量
的
JSON文件。我需要
ETL
这些文件与AWS EMR通过星火和存储转换为AWS RDS。外部逻辑有时可以向AWS S3文件夹中添加一个新文件,因此下次当我
的
火花
作业
开始
时,我只想处理新
的
(未处理
的
) JSON文件。现在,我不知道在哪里存储有关已处理
的
JSON文件
的
浏览 0
提问于2018-10-15
得票数 1
回答已采纳
2
回答
将SSIS
执行
存储到表中
、
、
我想知道我们是否有任何标准
的
方法将所有
执行
结果转储到一个表中,以跟踪包
的
状态,而不是将输出输入到屏幕截图中。 我已经在我
的
SSIS包中实现了包日志并
执行
了它。,我为Server选择了SSIS日志提供程序,并为配置选择了OLEDB连接,选择了要记录
的
事件。但是,在
执行
包之后,我不知道该在哪里查找。有谁能告诉我在哪里可以看到保存
的
结果吗?更清楚
的
是,我从这个MSDN链接
开始
浏览 1
提问于2015-07-23
得票数 2
回答已采纳
1
回答
addition定价--除了DBU成本之外,我们还应该单独支付EC2实例吗?
、
、
、
我试图对AWS Glue和托管在AWS环境中
的
Databricks进行一些成本比较。为了进行比较,我选择了m4.xlarge,相当于AWS Glue中
的
一个DPU (4个vCPU/16 in内存)。根据AWS,我
的
成本估算如下:数据库成本估算:这给出了每月74美元
的
估计数我担心
的
是,除了这7
浏览 8
提问于2022-05-12
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Komodo Health 公司如何在 EKS 与 EMR 6 上使用多租户 Notebook 平台建立自助服务分析方案
Spark引入
唯品会亿级数据服务平台落地实践
大数据Spark框架:Spark生态圈入门
成功从 Hadoop 迁移到 Lakehouse 架构的 5 个关键步骤
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券