在使用.join()时,如何在pyspark中指定许多条件query= "select a.NUMCNT,b.NUMCNT as RNUMCNT ,a.POLE,b.POLE asjoin rapexp201412 a where (a.NUMCNT=b.NUMCNT and a.ACTIVITE = b.ACTIVITE and a.POLE =b.POLE )\
但在PySpark
我正在连接两个数据帧site_bs和site_wrk_int1,并使用动态连接条件创建site_wrk。我的代码如下: join_cond=[ col(v_col) == col('wrk_'+v_col) for v_col in primaryKeyCols] #result would be
site_wrk=site_bs.join(site_wrk_int1,join_cond,'inner').select(*site_bs.columns) join_cond将是动
我正在创建一个通用条件,用于连接具有与下面代码相同的键和结构的2个数据文件。我想把它作为比较两个数据格式的函数。第一个想法是,我把它作为字符串条件,因为它很容易将条件与循环连接起来。最后,似乎联接条件无法接受字符串条件。有人能帮我指点一下吗?import pyspark.sql.functions as F
de