我在我的pyspark上使用pyspark.ml.feature.StopWordsRemover类。它有ID和文本列。除了提供默认的停止词列表外,我还想添加自己的自定义列表,以从字符串中删除所有数值。
我可以看到为这个类提供了一个添加setStopWords的方法。我想我很难找到合适的语法来使用这个方法。from pyspark.sql.functions im
我有一个PySpark数据帧(Df),其中包含50+列,其中包含一些动态列,这些列可能存在也可能不存在,但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数,汇总列<