问分区筛选顺序对火花读取性能有显著影响吗？
EN

Stack Overflow用户

提问于 2021-05-12 11:13:35

回答 1查看 86关注 0票数 2

示例:表XXXX是由column1和column2划分的。

           reading table XXXX by where clause Column1 and column2
           option 1: select xxxx where column1 ="" and column2 =""
           option 2: select xxxx where column2 ="" and column1 =""
          
   does option 1 and option 2 has different read performance because of filter order and table partitionBy column1 and column2?

i have checked DAG for both case which is having partitionFilter in filescan.

question is 
option1 : where(column1 ="" and column2 ="")
option 2: where(column2 ="" and column1 ="" ) 
does it have differenet read performance beacuse of table patition by column1, column2?

apache-spark

回答 1

Stack Overflow用户

发布于 2022-09-07 09:56:57

我想说，这应该没有什么区别，因为最终映射(即添加了以获取第一个分区，然后是第二个分区)的总处理时间将以相同的方式发生。基本上..。

t(column1) + t(column2) = t(column2) + t(column1)

但这是一个棘手的问题，应该用不同的基数和格式对每一列进行测试。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67502526

复制

相似问题

问分区筛选顺序对火花读取性能有显著影响吗？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分区筛选顺序对火花读取性能有显著影响吗？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分区筛选顺序对火花读取性能有显著影响吗？
EN