我想在PySpark 2.2中子串数组列的每个元素。我的df类似于下面的df,它类似于this,尽管我的df中的每个元素在连字符分隔符之前都有相同的长度。,以获得上面new_column格式的输出,但到目前为止还没有成功。有没有办法在PySpark 2.2中做到这一点?import pyspark.sql.functions a
如果我有一个包含arrays的Spark,我可以通过DataFrame在这些数组上使用Python List方法吗?下面是一个示例,其中包含一些UDF。我不确定为什么使用最大值可以,但是使用len就不行了。最后,我想用原始数组列中的采样值创建一个新列。这也会得到一个关于期望两个参数的错误,如果你能帮助的话也会得到加分!我有以下Spark DataFrame
from pyspark.sql.functions import u