我有一个查询,它需要一个colA计数,它由colB组成,平均值为COlC。例如
SELECT COUNT( X.colA ), X.colB , X.MEASURE
FROM (
SELECT colA , colB , avg(colC) MEASURE
FROM tableA
GROUP BY colA, colB
HAVING round(avg(colC),2) > 0
) X
GROUP BY X.MEASURE , X.colB
HAVING X.MEASURE BETWEEN 0 AND 3000
ORDER BY MEASURE示例结果可以是
No of User, URL , average time spent
90182 , abc.com, 334
293556 , def.com, 33上述查询的问题在于,由于它有子查询,内部子查询将大量的数据作为中间结果处理到外部查询,导致大数据集的查询速度变慢。
是否有一种方法可以将上面的查询转换为没有任何子-query的查询,或者是否有任何可以使用的联非新议程,这样就不会有更多的中间数据的大洗牌,并且它只在一个阶段运行?
发布于 2014-08-28 10:47:09
我不认为有一种简单的方法可以简化查询。但是,将having子句移到子查询中可能会对性能有所帮助:
SELECT COUNT( X.colA ), X.colB , X.MEASURE
FROM (SELECT colA , colB , avg(colC) MEASURE
FROM tableA
GROUP BY colA, colB
HAVING round(avg(colC),2) > 0 and avg(colC) <= 3000
) X
GROUP BY X.MEASURE , X.colB
ORDER BY MEASURE;您希望通过一组行的平均值进行聚合。这似乎需要两个操作-一个用于计算平均值,另一个用于最终聚合。
实际上,如果我想一想,以下几点可能会做你想做的事:
select colB, count(distinct colA), sum(colC) / count(distinct colA) as measure
from tableA
group by colA
having sum(colC) / count(distinct colA) between 0 and 3000
order by measure;这并不完全相同,但我不明白在外部查询中按measure分组的目的。也许为每个b值带一行的摘要就足够了。
https://stackoverflow.com/questions/25546011
复制相似问题