首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >AWS Glue + Athena/Hive取代复杂SQL查询是否正确?

AWS Glue + Athena/Hive取代复杂SQL查询是否正确?
EN

Stack Overflow用户
提问于 2018-08-03 10:30:03
回答 2查看 1.1K关注 0票数 4

我一直在使用AWS雅典娜查询存储在S3上的多个表中的分析数据。在一段时间内,我提出了2-3个复杂的SQL查询(涉及几个联接)来提取相关数据。由于雅典娜是用于临时查询(而不是预定义查询),除了处理几个TB和30分钟超时的高昂成本外,我还在寻找替代方案。

我能想到的两种选择是:

  1. 使用基于Presto的EMR群集并运行现有查询。它取消了30分钟的限制,降低了成本(5美元/TB)。但是,这些缺点是在连续运行时重新处理相同的数据。
  2. 执行ETL (例如通过AWS Glue)和反错数据。这将减少重复连接,因为只处理增量数据。随后,使用一些SQL接口- Athena/Hive查询扁平的数据。然而,除了存储冗余(庞大)数据的成本之外,我不确定去分化是否是一个好主意。

这其中哪一个是更好的选择,还是有更好的标准技术来解决这个问题?

EN

回答 2

Stack Overflow用户

发布于 2018-08-06 21:58:32

我认为最好做2(去正规化)和1(运行Presto优化的数据布局)。此外,使用基于成本的优化器的Presto可能值得一看:https://www.starburstdata.com/technical-blog/starburst-presto-on-aws-18x-faster-than-emr/

票数 2
EN

Stack Overflow用户

发布于 2018-08-03 18:37:14

数据的反正规化取决于您的用例,但大多数是s3/hdfs结构的首选。为了获得更好的雅典娜存储和性能,您可以遵循以下链接:

https://aws.amazon.com/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51670680

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档