为了获得这些DF,我们使用在同一文件或助手模块中定义的一些pyspark.sql.functions.udf。问题是,当我们这样做时,udf函数冻结了我们的工作。我们发现的令人讨厌的修复方法是在作业中定义udf函数,并将它们提供给从我们的模块导入的函数。我找到的的另一个修复方法是定义一个类:
from pyspark.sql.functions
对于通过pyspark的Spark dataframe,我们可以使用pyspark.sql.functions.udf来创建一个user defined function (UDF)。我想知道我是否可以在udf()中使用Python包中的任何函数,例如来自numpy的np.random.normal?