我正在尝试将一些Pandas代码转换为Spark以进行缩放。myfunc是一个复杂应用程序接口的包装器,它接受一个字符串并返回一个新的字符串(这意味着我不能使用矢量化函数)。这将有效地修改DataFrame中的所有单元。
我是Spark的新手,我想用pyspark来翻译这个逻辑。= StructType([StructField(c, StringType(), True) for c in df.
问题:在调用User Defined Function (UDF)时,我似乎没有在下面的代码中做一些正确的事情。为什么输出不是“这是一个测试”?备注:我使用的是python notebook in Azure数据库。pyspark.sql import functions as F
new_name = F.udf
我使用Spark SQL创建了一个名为todays_ids和previous_days_ids的ID数组。我希望能够直接使用Spark SQL将这些ID数组转换为集合,然后计算一列的ID与另一列的ID之间的差异。到目前为止,我已经使用了UDF:... query to generate today and pre