我是个新手,我正在尝试使用一个udf来映射一些字符串名。我必须将一些数据值映射到新的名称,所以我打算从sparkdf中发送列值,并将映射字段的字典发送到udf,而不是在.withColumn()之后编写大量的.withColumn()。尝试只将两个字符串传递给udf,它可以工作,但是传递字典不能。, in wrapper File "/usr/lib/spark/python/pys
我的数据经过两个连续的过滤传递,每个都使用一个布尔值的UDF。第一个筛选移除列在某些广播字典中未作为键出现的所有行。第二个筛选对此字典与当前键相关联的值施加阈值。org.apache.spark.sql.execution.python.BatchEvalPythonExec$$anonfun$doExecute$1.apply(BatchEvalPythonExec.scala:87)
at org.apache.spark.<em