我有一个包含列(id、id2、vec、vec2)的表,其中id是整数,向量是pyspark SparseVeectors。我想写一个udf来接受vec和vec2的点积,如下所示: def dot_product(vec, vec2): #or do the row and I can access them later asreturn vec.dot(vec2)dot_product = df.withColumn('dot_produc
我使用命令spark-submit启动了一个pyspark脚本,该脚本将标准输出重定向到tee中,以获得日志。为了模拟这种行为,我创建了一个最小的完整工作示例:import pyspark.sql.functions as F #udf, col如何才能使在pyspark中生成的输出也重定向到文件中?编辑以更好地解释我的问题--我添加了行print("This will be