API with caution;
在Spark3.0中,默认情况下不允许使用org.apache.spark.sql.functions.udf但是,在Spark3.0中,如果输入值为null,UDF将返回Java类型的默认值。例如,val = udf((x: Int) => x,IntegerType)
我使用Spark SQL创建了一个名为todays_ids和previous_days_ids的ID数组。我希望能够直接使用Spark SQL将这些ID数组转换为集合,然后计算一列的ID与另一列的ID之间的差异。到目前为止,我已经使用了UDF:... query to generate today and previous day