我的最终目标是,如果两个比较列名出现在从df1提取的值列表中,则在df2中使用这两个比较列名。 我有一个名称列表和一个函数,用于检查这些名称在df1中是否作为列名存在。然而,这在python中起作用,在pySpark中不起作用。我得到的错误是:AttributeError: 'DataFrame' object has no attribute 'values'.或者有没有办法将我的列表值与df2的列名进行比较(完整的datafr
我有一个PySpark数据帧(Df),其中包含50+列,其中包含一些动态列,这些列可能存在也可能不存在,但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数,汇总列的名称应与列的原始名
我有一个dataframe(df1),3列fname,lname,zip。fname lname zip rt kk 345另一个只有一个master_df列表的zip_codes。zip_codes 345 667
我想要编写一个pyspark代码来检查df1中的邮政编码是否是主列表中提到的邮政编码。主程序中不存在的任何内容都应该进入另一个数据格式。=m