我正在运行一个类似于tableA left on tableA.col1=tableB.col1和tableA.col2=tableB.col2的蜂巢查询。tableA有18亿个数据,tableB有3100万个记录。现在,我加入的最后一个减速器还没有完成,而且还在运行很长时间。我能看到长时间运行的任务如下所示
reduce > copy task(attempt_1498868574233_185232_m_001336_0 succeeded at 8.94
我读过AWS Glue是一个与Hive兼容的数据存储,但我还没有找到如何使用AWS Glue作为JDBC数据源。我想使用AWS Glue Catalog作为我的报告来源,如Hive文档所示- The JDBC connectionURL format has the prefix jdbc:hive2:// and the Driver class is org.apache.hive.jdbc.H