我在Databricks中有一个表,其中有一个列作为字符串字典,如下所示- +---+---------------------------------------------------------我尝试为其中几个定义了Struct模式,如下所示- from pyspark.sql.types import StructType,StructField, StringType
from pyspark.sql.functionsstringDictionary","jsonData.*",&
This answer很好地解释了如何使用pyspark的groupby和pandas_udf进行自定义聚合。但是,我不能像示例的这一部分那样手动声明我的模式 from pyspark.sql.types import *
StructField("key"有没有办法告诉PySpark只隐含地使用我的函数返回的模式,并假定它对所有工作节点都是相同的?这个模式在运行期间也会发生变化