在评估创建SQL视图查询的性能时,我注意到在末尾添加WHERE子句可以显著提高性能。输出差异不大(大约减少3%的行数)。例如:FROM (multiple table joins/sub queries)SELECT x,y,z WHERE x >= 0 (x is not indexed)
检查执行
我有一个很大的Dataframe,里面有来自不同设备的大量信息以及它们的ID。我想要的是用第二个Dataframe中的in过滤这个Dataframe。此外,我之所以尝试它,是因为我读到过命令筛选器比连接更有效,有人能解释一下吗?$apache$spark$sql$execution$streaming$StreamExecution$$runStream(StreamExecution.scala:295)
at org.apache.spark.sql
我试图优化包含pl/sql函数的select (实际上是pl/sql代码中的游标)。select * from mytable t,mytable2 t2...... lots more joins and sql predicate onwhere t.thing = 'XXX'
... lots more joins and s