我有一个用例来映射基于条件的pyspark列的元素。通过这个文档,我找不到一个函数来执行映射函数。因此,尝试使用pyspark映射函数,但无法将pyspark列转换为dataFrame
注意:我之所以使用pyspark列,是因为我从我使用的库(远大期望)中获得了它的输入。replace the above logic with
我有一个带有N列的表,我想将它们连接到一个string列中,然后在该列上执行一个散列。我想完全在Spark中完成这项工作,理想情况下,我已经尝试过HASH(*) as myhashcolumn,但是由于几个列有时为null,我无法像我所期望的那样使它工作。如果我必须创建一个UDF并注册它以实现这一点,我需要使用Python而不是Scala,因为我的所有其他代码都是用Python编写的。
有什么想法吗?