我一直在使用AWS雅典娜查询存储在S3上的多个表中的分析数据。在一段时间内,我提出了2-3个复杂的SQL查询(涉及几个联接)来提取相关数据。由于雅典娜是用于临时查询(而不是预定义查询),除了处理几个TB和30分钟超时的高昂成本外,我还在寻找替代方案。
我能想到的两种选择是:
这其中哪一个是更好的选择,还是有更好的标准技术来解决这个问题?
发布于 2018-08-06 21:58:32
我认为最好做2(去正规化)和1(运行Presto优化的数据布局)。此外,使用基于成本的优化器的Presto可能值得一看:https://www.starburstdata.com/technical-blog/starburst-presto-on-aws-18x-faster-than-emr/
发布于 2018-08-03 18:37:14
数据的反正规化取决于您的用例,但大多数是s3/hdfs结构的首选。为了获得更好的雅典娜存储和性能,您可以遵循以下链接:
https://aws.amazon.com/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/
https://stackoverflow.com/questions/51670680
复制相似问题