我需要用NLTK编写一个程序,它将一个语料库(大量的txt文件)分解为unigram、bigram、trigram、fourgrams和fivegrams。我已经编写了代码将我的文件输入到程序中。输入是用英文写的300个.txt文件,我希望输出的形式是纳克,特别是频率计数。但我并没有那么先进,让他们进入我的计划。PlaintextCorpusReader
corpus = 'C:/Users
下面是我的输入Dataframe。movie bad acting4 pathetic avoid我想从短语中常用的单词中提取让我们将短语标记化为单词,那么即使频繁使用的单词的顺序不同,我们也可以找到ngram,即(频繁使用的单词在第一个短语中互换,如果我们经常使用“好电影”,而在第二个短语中,我们经常使用单词“电影好”,我们可以提取二元语法作为2
average
我试图完成的任务是编写一个函数,当在字符串列表中进行搜索时,该函数将识别至少在y个条目中出现的至少n个标记的所有模式。function(list, n=3, y=3)["my name is", "my favorite food"] 我想在非常大的列表中使用这个函数我打算用多个嵌套循环的暴力方式来做这件事,但这会非常慢。我想知