我有一个带有N列的表,我想将它们连接到一个string列中,然后在该列上执行一个散列。我想完全在Spark中完成这项工作,理想情况下,我已经尝试过HASH(*) as myhashcolumn,但是由于几个列有时为null,我无法像我所期望的那样使它工作。如果我必须创建一个UDF并注册它以实现这一点,我需要使用Python而不是Scala,因为我的所有其他代码都是用Python编写的。
有什么想法吗?
我有一个pysparkdataframe,其中一列填充了列表,要么包含条目,要么只包含空列表。我想高效地过滤掉所有包含空列表的行。import pyspark.sql.functions as sf: java.lang.RuntimeException: Unsupported literal type class
也许我可以检