文章/答案/技术大牛

发布

社区首页 >问答首页 >AWS Glue + Athena/Hive取代复杂SQL查询是否正确？

问AWS Glue + Athena/Hive取代复杂SQL查询是否正确？
EN

Stack Overflow用户

提问于 2018-08-03 10:30:03

回答 2查看 1.1K关注 0票数 4

我一直在使用AWS雅典娜查询存储在S3上的多个表中的分析数据。在一段时间内，我提出了2-3个复杂的SQL查询(涉及几个联接)来提取相关数据。由于雅典娜是用于临时查询(而不是预定义查询)，除了处理几个TB和30分钟超时的高昂成本外，我还在寻找替代方案。

我能想到的两种选择是：

使用基于Presto的EMR群集并运行现有查询。它取消了30分钟的限制，降低了成本(5美元/TB)。但是，这些缺点是在连续运行时重新处理相同的数据。
执行ETL (例如通过AWS Glue)和反错数据。这将减少重复连接，因为只处理增量数据。随后，使用一些SQL接口- Athena/Hive查询扁平的数据。然而，除了存储冗余(庞大)数据的成本之外，我不确定去分化是否是一个好主意。

这其中哪一个是更好的选择，还是有更好的标准技术来解决这个问题？

amazon-web-services

amazon-athena

presto

aws-glue

回答 2

Stack Overflow用户

发布于 2018-08-06 21:58:32

我认为最好做2(去正规化)和1(运行Presto优化的数据布局)。此外，使用基于成本的优化器的Presto可能值得一看：https://www.starburstdata.com/technical-blog/starburst-presto-on-aws-18x-faster-than-emr/

票数 2

Stack Overflow用户

发布于 2018-08-03 18:37:14

数据的反正规化取决于您的用例，但大多数是s3/hdfs结构的首选。为了获得更好的雅典娜存储和性能，您可以遵循以下链接：

https://aws.amazon.com/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51670680

复制

相似问题

问AWS Glue + Athena/Hive取代复杂SQL查询是否正确？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问AWS Glue + Athena/Hive取代复杂SQL查询是否正确？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问AWS Glue + Athena/Hive取代复杂SQL查询是否正确？
EN