每个蓝色的 PX 进程重复扫描 customer, 并行扫描lineorder_skew 时, 是采用基于地址区间的 granule 为扫描单位, 见第 7 行的’PX BLOCK ITERATOR’....实例2的蓝色 PX 进程p001消耗了57.1秒的db time, sql执行时间58秒,这个PX进程在sql执 行过程中一直是活跃状态....根据集合元素的个数, 合理的设置 数组大小 m, 可以把错误判断的几率控制在很小的范围之内。
布隆过滤对 hash join 性能的改进
布隆过滤的优势在于使用的很少内存, 就可以过滤大部分的数据....我们观察 使用布隆过滤和不使用布隆过滤时性能的差别.
SQL 执行时间为 1 秒, db time 为 7.9 秒. 优化器默认选择 replicate 的方式....SQL 的执行顺序为每个 PX 进程重复扫描 customer表(第7行),对符合c_nation=’CHINA’数据集, 60K(240K/4)行记录,在c_custkey列生成布隆过 滤:BF0000