我有一个带有N列的表,我想将它们连接到一个string列中,然后在该列上执行一个散列。我想完全在Spark中完成这项工作,理想情况下,我已经尝试过HASH(*) as myhashcolumn,但是由于几个列有时为null,我无法像我所期望的那样使它工作。如果我必须创建一个UDF并注册它以实现这一点,我需要使用Python而不是Scala,因为我的所有其他代码都是用Python编写的。
有什么想法吗?
我有一个PySpark数据帧(Df),其中包含50+列,其中包含一些动态列,这些列可能存在也可能不存在,但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数,汇总<e