我有一个spark数据框,其中的" text“列有一些文本。我想要计算出现各种单词的行数-本质上是出现“术语”的“文档”的数量-以及相关的计数,如最频繁的单词,具有最频繁单词的行(或称为文档)。我正在使用来自pyspark.ml.feature的HashingTF。但是似乎找不到一种有效的方法来从输出中提取这些信息。# As an ex
我有一个数据集,我有一个数据“标题”列与汽车品牌和配件的信息。我想要两个新的列dataframe‘品牌’和dataframe‘模型’,在那里,我想得到品牌名称的车辆和车型。想要品牌-->通用的和型号的--> NaN --如果记录是第二项--> Blaupunkt科伦坡130 BT。我试过的:-for i in vehicle_make:
for j in range(len(df</