我在这里尝试做的是使用这里提供的代码Stack Overflow Answer for N-gram计算N元语法 以下数据是测试数据,实际计算将在大型分布式数据上进行 +--------------+NGramfrom pyspark.sql import functions as F
def build_ngrams(name,n=F.flatten(temp_kdf.author)
不幸的是,我使用的是一个非常大的语料库,这些语料库分布在数百个.gz文件中--实际上是24 an (打包)的文件。每一行都有一个n-gram (二元、三元、四元等)右边是频率计数。我基本上需要创建一个文件,该文件存储每个四元组的子串频率及其整个字符串频率计数(即,4个一元组频率,3个双元组频率,2个三元