值分组到一个list of dict中,并将该列表作为JSON字符串转储,这样我就可以将数据帧保存到磁盘。的使用还是个新手,而且我在弄清楚如何得到这个结果时遇到了很多麻烦。我几乎肯定需要一个groupBy,并且我尝试通过创建一个名为"json“的新StringType列来实现它,然后使用pandas_udf装饰器,但是我得到了关于不可散列的错误,因为我发现,我访问数据的方式是访问整个列)
..: def t
我正试图在中找到列中的所有字符串。输入df: 1 "book bike car"我需要输出df,比如:( word_index值是自动增量索引,"val_new“中的值顺序是随机的val_new word_index car 2 book 4 import pyspark.sql.functions a
我有一个dataframe,它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同,每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时,将字典(行)附加到列表中。data = []
global data
for item in row.json_object[