对于通过pyspark的Spark dataframe,我们可以使用pyspark.sql.functions.udf来创建一个user defined function (UDF)。我想知道我是否可以在udf()中使用Python包中的任何函数,例如来自numpy的np.random.normal?
如何从这篇文章中扩展下面的函数来计算'c‘和'd’的中位数:Calculate a grouped median in pyspark # udf for medianimport pyspark.sql.functions as func
med = np.median(values_list)return float(med)
udf_median
我是spark的新手,我想知道这是否会改变内存消耗以及如何将任务分配给它的工作人员。请看下面这个最小的例子,让你能够理解我的要求。# import thing for the pandas udfimport pyspark.sql.types as Timport pandas as pd
import numpy as