这里没法给一个具体的值,跟满桶率控制, m的选择有关。这个算法相比精确计数很省空间吗?这个毋庸置疑,不然直接精确统计就可以了。 m和最终结果n需要满足什么关系?...4,1,1,1,2,2,1,3,1,1,1,2,1,1,1,2,1,4,2,2,1,2,2,2,1,1,1,2,2,2,1,1,1,2,2,1,1,3,2,6,1,1,1,2,1,1,1,1,1,1,1,2,1,1,1,1,2,1这时候问题就来了,我们这样按上面的规则不停的抛硬币只是为了应付无聊的时间吗...在MapReduce框架核心流程如下:图片那么在Presto, 其执行流程是什么样呢?图片从逻辑上,都是类似的。先分组聚合,然后汇总聚合。...四、基数统计在Presto中的落地对于基数统计问题Presto支持两种实现方式。一种是追求精确的count distinct; 另一种是提供近似统计的approx_distinct。...在《我们如何走到今天:重塑世界的6项创新 》一书中有这样一个观点让人记忆深刻:我们衡量越精确,控制的能力就越强。但是它没有说的是,衡量越精确,成本就越大。