我必须在Spark中连接两个表,这样第一个表中的列的值就在第二个表中列的范围之内。两个表之间没有联接列,因此我不能使用普通的join SQL。我使用以下查询:
select t.*, (select MAX(p.grade) from table1 p where
p.marks_lower_bound <= ROUND(t.marks) and
p.marks_upper_bound >= ROUND(t.marks)) from table2 t;
因此,根据table2中的分数,我希望找到存储在table1中的带有分数范围的等级。我收到以下错误:
AnalysisException: Correlated column is not allowed in predicate
知道如何解决这是Spark吗?我已经在MySQL中尝试过这个查询,它在那里运行得很好,但是在Spark中失败了。请注意,table1
和table2
是从其他Spark创建的临时表。谢谢。
发布于 2022-09-21 06:06:38
非相等谓词->火花-36114不允许相关列。
不过,您可以使用“普通”联接。请注意,您不能在*
中使用group by
,因此需要显式地提供列列表。或者您根本不需要分组(如果范围不重叠)。
select t.col1, t.col2, max(p.grade)
from table2 t
left join table1 p on (p.marks_lower_bound <= round(t.marks)
and p.marks_upper_bound >= round(t.marks))
group by t.col1, t.col2;
https://stackoverflow.com/questions/73748955
复制相似问题