首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

GaussDB分布式Stream执行计划详解

GaussDB在Postgres-XC的基础上新增了三个Stream算子:gather、redistribute和broadcast。...其中对于redistribute和broadcast的选择主要是根据cost代价评估来选择。...大致来说,大表join小表的场景,小表倾向做broadcast,大表倾向做redistribute,这样能够最小化DN间通信交互的数据量,减少通信交互的开销。...如果关联的两张表数据量较大且相差不多,此时优化器会倾向于选择redistribute,因为相比于大数据量做broadcast,redistribute带来的性能影响更低。...除了关联字段为非分布列时会出现redistribute,当查询中使用了group by或者over(partition by )窗口函数时,如果分组字段不是表的分布列,同样会产生redistribute

81420

云时代大数据管理引擎HAWQ++全面解读

Motion一共有三类:1.Redistribute Motion,负责按照hash键值重新分布数据;2.Broadcast Motion,负责广播数据;3.Gather Motion,负责搜集数据到一起...而如果这两张表都是随机分布,那么就会生成右边的查询计划,和左边查询计划相比多了一个Redistribute Motion的节点。...可能有些人会有疑问,HAWQ++的数据存储在HDFS上,如果遇到HDFS加减节点某个Datanode上的block可能会被rebalance到其他Datanode上,那么对于hash分布的表不做Redistribute...原因在于对于hash分布的表HAWQ++有维护QE和写入文件的映射关系,所以即便该文件某个block不在本地了,那么影响的也只是对于该block的本地读还是远程读,和是否需要做Redistribute

1.3K50
领券